Их там около 30, цель - имитация эмоций. А ещё он волну бровями умеет делать.
вообщем, сложно найти
думаю сам понимаешь что , сначала идет речь. речь нужно либо сразу обработать, либо по факту окончания записи взять да обработать.(но это все только при входных данных в виде предложений)
если ты собрался просто словечками обмениваться с системой, то сфинкс должен быстро делать это, ибо файл с голосом не будет весить много)
а если сам хочешь для малого словаря сделать распознавание(быть может нацеленное даже на только мужской тембр ) , то бери язык и смотри из каких звуков состоит наша речь. на этом основывать свою сеть будет хорошей задачей. сфинкс же, насколько помню, выделяет грамматически куски, затем по своей базе звуков находит схожие. и если все ок, то на выходе будет слово.
кач-во микрофона тоже важно, если вдруг обнаружишь странные слова на выдаче системы распознавания