<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: Ελληνικό ελεύθερο λογισμικό text to speech (TTS)</title>
	<atom:link href="http://simos.info/blog/archives/344/feed" rel="self" type="application/rss+xml" />
	<link>http://simos.info/blog/archives/344?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=%25ce%25b5%25ce%25bb%25ce%25bb%25ce%25b7%25ce%25bd%25ce%25b9%25ce%25ba%25cf%258c-%25ce%25b5%25ce%25bb%25ce%25b5%25cf%258d%25ce%25b8%25ce%25b5%25cf%2581%25ce%25bf-%25ce%25bb%25ce%25bf%25ce%25b3%25ce%25b9%25cf%2583%25ce%25bc%25ce%25b9%25ce%25ba%25cf%258c-text-to-speech-tts</link>
	<description>Το ιστολόγιό μου</description>
	<lastBuildDate>Fri, 23 Dec 2011 10:18:28 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=</generator>
	<item>
		<title>By: anonymous</title>
		<link>http://simos.info/blog/archives/344/comment-page-1#comment-350</link>
		<dc:creator>anonymous</dc:creator>
		<pubDate>Wed, 09 Mar 2005 01:37:19 +0000</pubDate>
		<guid isPermaLink="false">#comment-350</guid>
		<description>Παιδια μην ακουτε τις φτηνες δικαιολογιες του. Ειναι αληθεια. Ετσι μιλαγε τοτε. Ο Γερασιμος οταν εκανε τις ηχογραφησεις δεν ειχε βγαλει τα κρεατακια του :-)

--
Ευριπιδης</description>
		<content:encoded><![CDATA[<p>Παιδια μην ακουτε τις φτηνες δικαιολογιες του. Ειναι αληθεια. Ετσι μιλαγε τοτε. Ο Γερασιμος οταν εκανε τις ηχογραφησεις δεν ειχε βγαλει τα κρεατακια του <img src='http://simos.info/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
<p>&#8211;<br />
Ευριπιδης</p>
<p>Like or Dislike: <img style="padding: 0px; border: none; cursor: pointer;" onmouseover="this.width=this.width*1.3" onmouseout="this.width=this.width/1.2" id="up-350" src="http://simos.info/blog/wp-content/plugins/comment-rating/images/1_14_up.png" alt="Thumb up" onclick="javascript:ckratingKarma('350', 'add', 'simos.info/blog/wp-content/plugins/comment-rating/', '1_14_');" title="Thumb up" /> <span id="karma-350-up" style="font-size:12px; color:#009933;">3</span>&nbsp;<img style="padding: 0px; border: none; cursor: pointer;" onmouseover="this.width=this.width*1.3" onmouseout="this.width=this.width/1.2" id="down-350" src="http://simos.info/blog/wp-content/plugins/comment-rating/images/1_14_down.png" alt="Thumb down" onclick="javascript:ckratingKarma('350', 'subtract', 'simos.info/blog/wp-content/plugins/comment-rating/', '1_14_')" title="Thumb down" /> <span id="karma-350-down" style="font-size:12px; color:#990033;">1</span></p>]]></content:encoded>
	</item>
	<item>
		<title>By: anonymous</title>
		<link>http://simos.info/blog/archives/344/comment-page-1#comment-349</link>
		<dc:creator>anonymous</dc:creator>
		<pubDate>Mon, 07 Mar 2005 18:36:10 +0000</pubDate>
		<guid isPermaLink="false">#comment-349</guid>
		<description>Αγαπητοί φίλοι,

Έμαθα ότι αναφέρθηκε το όνομα μου, οπότε να σας αναλύσω μερικά πράγματα:

TtS
---------
Είναι αλήθεια ότι κάποιος μπορεί πλέον να φτιάξει ένα dummy σύστημα για οποιαδήποτε γλώσσα χρησιμοποιώντας ελεύθερα διαθέσιμα εργαλεία και πόρους. Κάτι τέτοιο είναι εφικτό και για τα Ελληνικά πλέον. Ωστόσο, το dummy σύστημα με την μονότονη απαγγελία και την δυσκολία στο χειρισμό μη-κοινών λέξεων απέχει πολύ από ένα πλήρες σύστημα για μία γλώσσα με τουλάχιστον αποδεκτή προσωδία. Από την περιγραφή σας λοιπόν αγνοείτε το 90% της διαδικασίας σύνθεσης ομιλίας, κάνοντας τα πράγματα να φαίνονται αρκετά απλά ενώ δεν είναι. Η διαδικασία αυτή περιλαμβάνει μεταξύ άλλων την κανονικοποίηση των κειμένων (αριθμητικά, ακρωνύμια κλπ – με την κατάλληλη κλίση για τα ελληνικά, χειρισμός ταυτόχρονα ελληνικών, αγγλικών και greeklish κλπ), τη γραμματική και συντακτική ανάλυση (για πολλούς λόγους), την φωνηματική μετατροπή (το μόνο που αναφέρετε), την πρόβλεψη της κατάλληλης προσωδίας (το βασικότερο απ’όλα) και την παραγωγή ή επιλογή των ακουστικών μονάδων, οι αλγόριθμοι των οποίων πολλές φορές είναι σύνθετοι (και πολλά άλλα ακόμα, όρεξη να’χετε). Όλα αυτά απαιτούν τη συλλογή ακριβών πολλές φορές δεδομένων και την επεξεργασία τους, τη δημιουργία στατιστικών και μαθηματικών μοντέλων και αρκετά ακόμα. Μερικές πληροφορίες σχετικά με αυτές τις διαδικασίες μπορείτε να βρείτε στο http://www.di.uoa.gr/~gxydas/en/documents.shtml από τις διαφάνειες των σχετικών μαθημάτων (σύντομα θα γίνουν και update).

FESTIVAL
--------------
Το FESTIVAL είναι καταρχήν μία πλατφόρμα για την διασύνδεση αρθρωμάτων με σκοπό την μετατροπή κειμένου σε ομιλία. Αυτό που κυρίως κάνει το FESTIVAL είναι να επιτρέπει την επικοινωνία αυτών των αρθρωμάτων. Επειδή το FESTIVAL παρέχεται μαζί με κάποιες open-source Αγγλικές φωνές, δημιουργείται η λανθασμένη εντύπωση ότι με την κατάλληλη τροποποίηση κάποιων data-files όπως τα λέτε μπορεί να μιλάει οποιαδήποτε γλώσσα. Αυτό είναι λάθος και δεν είναι θέμα data-files έτσι απλουστευμένα όπως το γράφετε (εφόσον φυσικά θέλετε να μιλάει Ελληνικά και όχι σαν τουρίστας). Έχει να κάνει καταρχήν με την συλλογή και την κατασκευή των κατάλληλων πόρων καθώς και με το σχεδιασμό και την υλοποίηση των αρθρωμάτων που τους επεξεργάζονται. Το FESTIVAL παρέχει ουσιαστικά μία γλώσσα προγραμματισμού για αυτόν το σκοπό και συνοδεύεται από μία εργαλειοθήκη που διευκολύνει την συλλογή και την δημιουργία των πόρων αυτών. Ας πούμε ότι είναι ένα SDK για σύνθεση ομιλίας. Επίσης είναι λάθος ξεκινάει κανείς από τα Αγγλικά προκειμένου να φτιάξει Ελληνικό σύστημα.

MBROLA
-------------
Το MBROLA είναι ένας συνθέτης συρραφής ακουστικών διφώνων που αφορά στο τελικό στάδιο της μετατροπής και αυτό που κάνει είναι να «κολλάει» ομαλά δύο ακουστικά δίφωνα, χωρίς να ακούγονται ασυνέχειες («κλατς-κλουτς») κατά την συρραφή. Ήδη, υπάρχουν 2 ελεύθερα διαθέσιμες ελληνικές βάσεις διφώνων για το MBROLA, μία από το Αριστοτέλειο Πανεπιστήμιο και μία από το Πανεπιστήμιο της Αθήνας με τη δική μου φωνή (όχι, δεν μιλάω έτσι, το MBROLA παραμορφώνει). Εκτός από τα δίφωνα, το MBROLA απαιτεί και την προσωδιακή περιγραφή μίας φράσης προκειμένου να δημιουργήσει ένα σωστό ακουστικό σήμα (και όχι μονότονο). Αυτό είναι και το πιο δύσκολο κομμάτι και μπορεί να υλοποιηθεί με τη χρήση του FESTIVAL και με βάση όσα έγραψα παραπάνω.

Διάθεση
----------
Σχετικά με την ελεύθερη διάθεση TtS για τα Ελληνικά: αυτή τη στιγμή δουλεύω στο Πανεπιστήμιο της Αθήνας με 3 συστήματα για τα Ελληνικά: ΔΗΜΟΣΘέΝΗΣ, FESTIVAL και FLITE, κάτω από μία ενιαία πλατφόρμα. Ανάλογα με τις απαιτήσεις χτίζουμε και το κατάλληλο TtS. Όλη η ουσία όμως είναι στους πόρους και όχι τόσο στο infrastructure. Ήδη, ο ΔΗΜΟΣΘέΝΗΣ παρέχεται ελεύθερα (για Win32, η έκδοση 2 παίζει και σε Linux αλλά δεν έχει γίνει διαθέσιμη ακόμα) και συνοδεύεται από DLL προκειμένου να ενσωματώνεται σε τρίτες εφαρμογές. Αυτό είναι κάτι, δεν είναι όμως ακόμα open-source.
Ο σκοπός είναι ένα από αυτά τα συστήματα να γίνει open-source σχετικά σύντομα (πιθανώς το FESTIVAL για άμεση συμβατότητα με άλλες open-source εφαρμογές), μόλις τελειώσει το documentation γιατί open-source χωρίς documentation είναι δώρον άδωρο. Δεν υπάρχει συγκεκριμένο χρονοδιάγραμμα άλλα έχει ήδη ξεκινήσει.

Ελπίζω να έκανα τα πράγματα λίγο πιο ξεκάθαρα.

Σας χαιρετώ,
Γεράσιμος Ξύδας</description>
		<content:encoded><![CDATA[<p>Αγαπητοί φίλοι,</p>
<p>Έμαθα ότι αναφέρθηκε το όνομα μου, οπότε να σας αναλύσω μερικά πράγματα:</p>
<p>TtS<br />
&#8212;&#8212;&#8212;<br />
Είναι αλήθεια ότι κάποιος μπορεί πλέον να φτιάξει ένα dummy σύστημα για οποιαδήποτε γλώσσα χρησιμοποιώντας ελεύθερα διαθέσιμα εργαλεία και πόρους. Κάτι τέτοιο είναι εφικτό και για τα Ελληνικά πλέον. Ωστόσο, το dummy σύστημα με την μονότονη απαγγελία και την δυσκολία στο χειρισμό μη-κοινών λέξεων απέχει πολύ από ένα πλήρες σύστημα για μία γλώσσα με τουλάχιστον αποδεκτή προσωδία. Από την περιγραφή σας λοιπόν αγνοείτε το 90% της διαδικασίας σύνθεσης ομιλίας, κάνοντας τα πράγματα να φαίνονται αρκετά απλά ενώ δεν είναι. Η διαδικασία αυτή περιλαμβάνει μεταξύ άλλων την κανονικοποίηση των κειμένων (αριθμητικά, ακρωνύμια κλπ – με την κατάλληλη κλίση για τα ελληνικά, χειρισμός ταυτόχρονα ελληνικών, αγγλικών και greeklish κλπ), τη γραμματική και συντακτική ανάλυση (για πολλούς λόγους), την φωνηματική μετατροπή (το μόνο που αναφέρετε), την πρόβλεψη της κατάλληλης προσωδίας (το βασικότερο απ’όλα) και την παραγωγή ή επιλογή των ακουστικών μονάδων, οι αλγόριθμοι των οποίων πολλές φορές είναι σύνθετοι (και πολλά άλλα ακόμα, όρεξη να’χετε). Όλα αυτά απαιτούν τη συλλογή ακριβών πολλές φορές δεδομένων και την επεξεργασία τους, τη δημιουργία στατιστικών και μαθηματικών μοντέλων και αρκετά ακόμα. Μερικές πληροφορίες σχετικά με αυτές τις διαδικασίες μπορείτε να βρείτε στο <a href="http://www.di.uoa.gr/~gxydas/en/documents.shtml" rel="nofollow">http://www.di.uoa.gr/~gxydas/en/documents.shtml</a> από τις διαφάνειες των σχετικών μαθημάτων (σύντομα θα γίνουν και update).</p>
<p>FESTIVAL<br />
&#8212;&#8212;&#8212;&#8212;&#8211;<br />
Το FESTIVAL είναι καταρχήν μία πλατφόρμα για την διασύνδεση αρθρωμάτων με σκοπό την μετατροπή κειμένου σε ομιλία. Αυτό που κυρίως κάνει το FESTIVAL είναι να επιτρέπει την επικοινωνία αυτών των αρθρωμάτων. Επειδή το FESTIVAL παρέχεται μαζί με κάποιες open-source Αγγλικές φωνές, δημιουργείται η λανθασμένη εντύπωση ότι με την κατάλληλη τροποποίηση κάποιων data-files όπως τα λέτε μπορεί να μιλάει οποιαδήποτε γλώσσα. Αυτό είναι λάθος και δεν είναι θέμα data-files έτσι απλουστευμένα όπως το γράφετε (εφόσον φυσικά θέλετε να μιλάει Ελληνικά και όχι σαν τουρίστας). Έχει να κάνει καταρχήν με την συλλογή και την κατασκευή των κατάλληλων πόρων καθώς και με το σχεδιασμό και την υλοποίηση των αρθρωμάτων που τους επεξεργάζονται. Το FESTIVAL παρέχει ουσιαστικά μία γλώσσα προγραμματισμού για αυτόν το σκοπό και συνοδεύεται από μία εργαλειοθήκη που διευκολύνει την συλλογή και την δημιουργία των πόρων αυτών. Ας πούμε ότι είναι ένα SDK για σύνθεση ομιλίας. Επίσης είναι λάθος ξεκινάει κανείς από τα Αγγλικά προκειμένου να φτιάξει Ελληνικό σύστημα.</p>
<p>MBROLA<br />
&#8212;&#8212;&#8212;&#8212;-<br />
Το MBROLA είναι ένας συνθέτης συρραφής ακουστικών διφώνων που αφορά στο τελικό στάδιο της μετατροπής και αυτό που κάνει είναι να «κολλάει» ομαλά δύο ακουστικά δίφωνα, χωρίς να ακούγονται ασυνέχειες («κλατς-κλουτς») κατά την συρραφή. Ήδη, υπάρχουν 2 ελεύθερα διαθέσιμες ελληνικές βάσεις διφώνων για το MBROLA, μία από το Αριστοτέλειο Πανεπιστήμιο και μία από το Πανεπιστήμιο της Αθήνας με τη δική μου φωνή (όχι, δεν μιλάω έτσι, το MBROLA παραμορφώνει). Εκτός από τα δίφωνα, το MBROLA απαιτεί και την προσωδιακή περιγραφή μίας φράσης προκειμένου να δημιουργήσει ένα σωστό ακουστικό σήμα (και όχι μονότονο). Αυτό είναι και το πιο δύσκολο κομμάτι και μπορεί να υλοποιηθεί με τη χρήση του FESTIVAL και με βάση όσα έγραψα παραπάνω.</p>
<p>Διάθεση<br />
&#8212;&#8212;&#8212;-<br />
Σχετικά με την ελεύθερη διάθεση TtS για τα Ελληνικά: αυτή τη στιγμή δουλεύω στο Πανεπιστήμιο της Αθήνας με 3 συστήματα για τα Ελληνικά: ΔΗΜΟΣΘέΝΗΣ, FESTIVAL και FLITE, κάτω από μία ενιαία πλατφόρμα. Ανάλογα με τις απαιτήσεις χτίζουμε και το κατάλληλο TtS. Όλη η ουσία όμως είναι στους πόρους και όχι τόσο στο infrastructure. Ήδη, ο ΔΗΜΟΣΘέΝΗΣ παρέχεται ελεύθερα (για Win32, η έκδοση 2 παίζει και σε Linux αλλά δεν έχει γίνει διαθέσιμη ακόμα) και συνοδεύεται από DLL προκειμένου να ενσωματώνεται σε τρίτες εφαρμογές. Αυτό είναι κάτι, δεν είναι όμως ακόμα open-source.<br />
Ο σκοπός είναι ένα από αυτά τα συστήματα να γίνει open-source σχετικά σύντομα (πιθανώς το FESTIVAL για άμεση συμβατότητα με άλλες open-source εφαρμογές), μόλις τελειώσει το documentation γιατί open-source χωρίς documentation είναι δώρον άδωρο. Δεν υπάρχει συγκεκριμένο χρονοδιάγραμμα άλλα έχει ήδη ξεκινήσει.</p>
<p>Ελπίζω να έκανα τα πράγματα λίγο πιο ξεκάθαρα.</p>
<p>Σας χαιρετώ,<br />
Γεράσιμος Ξύδας</p>
<p>Like or Dislike: <img style="padding: 0px; border: none; cursor: pointer;" onmouseover="this.width=this.width*1.3" onmouseout="this.width=this.width/1.2" id="up-349" src="http://simos.info/blog/wp-content/plugins/comment-rating/images/1_14_up.png" alt="Thumb up" onclick="javascript:ckratingKarma('349', 'add', 'simos.info/blog/wp-content/plugins/comment-rating/', '1_14_');" title="Thumb up" /> <span id="karma-349-up" style="font-size:12px; color:#009933;">4</span>&nbsp;<img style="padding: 0px; border: none; cursor: pointer;" onmouseover="this.width=this.width*1.3" onmouseout="this.width=this.width/1.2" id="down-349" src="http://simos.info/blog/wp-content/plugins/comment-rating/images/1_14_down.png" alt="Thumb down" onclick="javascript:ckratingKarma('349', 'subtract', 'simos.info/blog/wp-content/plugins/comment-rating/', '1_14_')" title="Thumb down" /> <span id="karma-349-down" style="font-size:12px; color:#990033;">1</span></p>]]></content:encoded>
	</item>
</channel>
</rss>

