Linux आवाज पहिचानको स्टेटस

by गैरी न्यूल

परिचय

म लेखहरु को लागि धेरै समय अनुसन्धान गर्छन र प्रायः म एक लेख को विषय मा विचार गर्छु जब रेलवे स्टेशन सम्म हिंड्छ वा जब बाहिर र सामान्य मा।

एक दिन मेरो काम देखि स्टेशन मा 1.5 मील को दूरी मा हिडयो म सोचा "यो राम्रो नहीं हुनेछ यदि म रेकर्ड गर्न सक्छ कि म के गर्न चाहते हो र यो स्वचालित रूप देखि एक पाठ फाइल मा ट्रांसक्रिप्ट गरेको छ, जो पछि मा सम्पादन र प्रारूप" ।

मैले धेरै लामो घण्टा बिताएको छु। भ्वाईस पहिचान र हिज्जेको लागि उपलब्ध विभिन्न विकल्पहरू हेर्दै सहित एक माइक्रोफोन मार्फत लिनक्समा आलेखन सफ्टवेयर प्रयोग गरी रेकर्डिङ सहित, एमपी 3 वा WAV ढाँचामा फाइल रेकर्ड गरेर र कमांड लाइन मार्फत यसलाई बदल्नु साथै क्रोम प्रयोग गरेर। र एन्ड्रोइड अनुप्रयोगहरू।

यस लेखले मेरो निष्कर्षलाई कडा मेहनतको दिन पछि प्रकाश पार्छ।

लिनक्स विकल्पहरू

लिनक्समा बोलचाल र भ्वाईस पहिचान सफ्टवेयर फेला पार्न प्रयास गर्दै यो सजिलो छैन जुन यो हुन सक्छ र विकल्प उपलब्ध छ कि चालाक होइन।

यो विकिपीडिया पृष्ठमा सीएमयू स्फिक्सक्स, जूलियस र सिमोन सहित संभावित विकल्पहरूको सूची छ।

म स्पार्कलाइलिन प्रयोग गरिरहेको छु जुन यस समय डेबियन परीक्षणमा आधारित छ र म तपाईंलाई बताउन सक्छ कि भण्डारमा उपलब्ध मात्र भ्वाईस पहिचान प्याकेज साइफिन छ।

ल्यापटप प्रोग्रामहरू मैले एक्लै प्रयास गरिसकेका थिए PocketSphinx, जुन मैले WAV फाईलहरू पाठ र Freespeech-VR कन्फिगर गर्न प्रयोग गरें जो एक पाइजन अनुप्रयोग हो जसले तपाईलाई सिधै माइक्रोफोनबाट रेकर्ड गर्न दिन्छ।

मैले VoiceNote II र डिक्टेटोट सहित Chrome अनुप्रयोगहरूको एक जोडी पनि प्रयास गरें।

अन्तमा मैले "डटकेशन र ई-मेल" र "टक र टक डटकेशन" एण्ड्रोइड अनुप्रयोगहरू खोजे।

Freespeech-VR

Freespeech-VR मानक भण्डारहरूमा उपलब्ध छैन। मैले यहाँबाट फाइलहरू डाउनलोड गरें।

Zip फाइलको सामग्री डाउनलोड गर्न र निकाल्न पछि मैले टर्मिनल खोल्यो र फोल्डरमा नेभिगेट गरियो जहाँ फाईलहरू हटाइयो।

मैले freespeech-vr खोल्नका लागि निम्न आदेश टाइप गरें।

sudo python freespeech-vr

मेरोसँग पर्याप्त सभ्य माइक्रोफोनसँग हेडफोन्सको जोडी र एकदम राम्रो दक्षिण दक्षिणी अंग्रेजी उच्चारण।

निम्न पाठ freespeech-vr सञ्झ्यालमा देखा पर्दछ:

यसपालीको बिषयमा आजको कार्यक्रममा महासंघका अध्यक्ष पुष्पकमल दाहालले भने, "महासंघका अध्यक्ष प्रचण्डले भने," संविधानसभाको म्याद थप्न सकेको छैन। " यसका लागी एकै ठाउँमा एकजनाको नाममा एकजना साथीले फोन गरेकी थिईन। मैले सोधेँ, "मैले भनेँ। कथा ए र यसको प्रयोग गरेर जब यो धेरै सफलता हो यो लिनक्स जस्तो थियो के तपाईं बचाउन सक्नुहुन्छ

म अब भन्न चाहान्छु कि यो युनियन कुक वेबसाइट होइन र कुनै पनि कुराले मैले गोल्डेन मुर्गन संग केहि गर्न उल्लेख गरेन। म वास्तवमा भ्वाईस पहिचान सफ्टवेयर प्रयोग गर्ने प्रक्रियाको वर्णन गर्न खोज्दै थिएँ।

मैले भिन्न पिच र गति सहित सफ्टवेयर कोसिस गरे तर शुद्धता खराब थियो।

PocketSphinx

PocketSphinx एक WAV फाईल लिन र कमांड लाइन प्रयोग गरेर पाठमा रूपान्तरण गर्न सक्षम छ।

PocketSphinx डेबियन भण्डारहरू मार्फत उपलब्ध छ र धेरै वितरणको लागि उपलब्ध हुनुपर्छ।

मैले जेबिक्सस्फिनक्ससँग फेला परेको मुख्य मुद्दा भनेको तपाईं वास्तवमा भ्वाईस पहिचान, भाषा फाईलहरू, शब्दकोशहरू र प्रणालीलाई कसरी प्रशिक्षण दिने बारे अवधारणामा वास्तविकताको डिग्री चाहिन्छ।

PocketSphinx स्थापना गर्नु पछि तपाई CMU Sphinx वेबसाइटमा जानुहुन्छ र सम्भव छ कि धेरै पढ्न सक्नुहुन्छ। तपाइँलाई निम्न मोडेल फाइल डाउनलोड गर्न आवश्यक छ।

युएस अंग्रेजी जेनेरिक भाषा मोडेल

(यदि तपाइँ मूल अंग्रेजी स्पीकर हुनुहुन्न भने तपाइँको लागि उपयुक्त भाषा मोडेल छनौट गर्नुहोस्)।

PocketSphinx र Sphinx को लागि दस्तावेज साधारण व्यक्तिको लागि बुझ्न गाह्रो छ तर मैले शब्दकोश शब्दकोश फाइलहरू गर्न सक्दिन जुन सम्भव शब्दहरू र भाषा मेमोरीहरूको सूची प्रदान गर्न प्रयोग गरिन्छ जुन सम्भावित उच्चारणको सूची छ।

PocketSphinx लाई परीक्षण गर्न मैले आफ्नै आफ्नै आवाजको रेकर्डिङ प्रयोग गरें, अल Pacino बाट "द डेबल्स एडोकेट" र स्निपेट "मोर्गन फ्रीम्यान" बाट स्निपेट। यो बिषयमा विभिन्न आवाजहरू प्रयास गर्न थाल्छ र मेरो लागि त्यहाँ त्यहाँ कोही पनि छैन जसले स्पष्ट रूपमा मोर्गन फ्रीम्यानको रूपमा कथा बताउन सक्छ र कसैले अल Pacino जस्ता कुनै रेखालाई उद्धार गर्दैन।

PocketSphinx को लागि काम गर्न यो WAV फाईल को आवश्यकता छ र यो एक निश्चित ढाँचामा हुनु आवश्यक छ। यदि फाइल एमपी 3 ढाँचामा छ भने ffmpeg कमांड यो WAV ढाँचामा रूपान्तरण गर्न प्रयोग गर्नुहोस्:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx चलाउन निम्न आदेश प्रयोग गर्नुहोस्:

जेबसफिनx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile ध्वनि 2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketetsphinx_continuous ले एउटा WAV फाइल लिन्छ र पाठमा बदल्छ।

माथिको आदेशमा जेबेट्सफिनक्सलाई एक शब्दकोश फाइलको प्रयोग गर्न भनिन्छ "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" भाषा मोडेलको साथ "cmusphinx-5.0-en-us.lm"। फाइललाई पाठमा रूपान्तरित गरिन्छ आवाज 2.wav (जुन मैले मेरो आवाजको साथ बनाएको रेकर्डिङ हो) भनिन्छ। अन्तमा 2> सबै व्याख्यान उत्पादनहरू जुन तपाईले आवश्यक छैन भने भ्वाईस 2.लग भनिन्छ। परीक्षणको वास्तविक परिणाम टर्मिनल सञ्झ्याल भित्र प्रदर्शित गरिन्छ।

मेरो आवाज प्रयोग गरी परिणामहरू निम्नानुसार छन्:

अर्कोमा स्वागत छ राम्ररी कुनै हप्तामा कुन मान्यता सफ्टवेयरको बारेमा यो विषय छैन

परिणामहरू freespeech-vr रूपमा हानिकारक रूपमा होइनन् तर अझै पनि प्रयोगयोग्य छैन। मैले त्यसपछि PocketSphinx प्रयोग गरी ए अल प्याकिनोको साथ प्रयोग गर्ने प्रयास गरे तर यो सबै परिणामहरू फर्काइएन।

अन्तमा मैले फिल्मको "ब्रूस सर्वशक्तिमान" बाट मोर्गन फ्रीम्यानको आवाज प्रयोग गरी प्रयास गरे र यहाँ परिणामहरू छन्:

000000000: हामी उनको मा हुनेछौं
000000001: सबै कि यो कठिन हो जुन त्यो दिन अहिले नै हो यो हो हामी सबैभन्दा बढी जीवित छौं
000000002: बेसबलको बिटको कुञ्जी हो जुन लिफ्टमा वा जीवनमा के गर्न को लागी थाहा छ
000000003: के प्राप्त गर्नेहरू के हो
000000004: तिनीहरूले यसलाई लेखेनन्
000000005: तिनीहरूसँग मलाई ठीक छ
000000006: तपाईं नियम हुनु पर्छ
000000007: म तिमीलाई आशा गरिरहेको छु
000000008: र उनले यहाँ सिके कि एक उदाहरण हत्यारा क्रिसमस पार्टी हो
000000009: यो ओ लेख्न को लागी एक तरिका उत्तीर्ण गर्दछ। गधा मैले सोधेँ कि केहीले सधैं एकै लुगा लगाउँछन्
000000010: जस्तै, समस्या एकताले तिनीहरूलाई राम्रो नदिई मलाई त्यो क्षणमा अनुमान गरेको छु जब हामीले सबैलाई थाहा छैन कि म संसारमा हुँ घरहरू र मैले देखेको छु
000000011: यो एक जना पिता हो
000000012: यो के बारे मा धेरै
000000013: दिइएको छ
000000014: तपाईका लागि जो केहि पनि लाग्दैन
000000015: दाँतमा दायाँ
000000016: राम्रो हो बस मा मेरो लागि
000000017: यो एक दुखी हो कि म पनि सोच्न चाहन्छु कि उनि एक हुन चाहने हो कि सबै मा विवाहित सबै को होईन हामी नहीं

मेरो परीक्षणले सोच्न सकिन्छ वैज्ञानिक र PocketSphinx को विकासकर्ताहरूले हुन सक्छ कि म सफ्टवेयरको सही तरिकाले प्रयोग गरिरहेको छैन। त्यहाँ भ्वाईस ट्रेनिंग भनिन्छ जुन राम्रो शब्दकोशहरू र भाषा फाईलहरू सिर्जना गर्न प्रयोग गर्न सकिन्छ।

मेरो ओवरराइडिंग राय यद्यपि यो मानक दैनिक प्रयोगको लागि यो पनि धेरै गाह्रो छ।

भ्वाइस नोट II

VoiceNote II एउटा क्रोम अनुप्रयोग हो जुन Google भ्वाइस पहिचान एपीआई प्रयोग गर्दछ।

यदि तपाइँ क्रोम वा क्रोमियम ब्राउजर प्रयोग गर्दै हुनुहुन्छ भने तपाई वेब स्टोर मार्फत VoiceNote II स्थापना गर्न सक्नुहुनेछ।

VoiceNote II मा भएका आइकनहरू एक अजीब फैशनमा राखिएको छ किनकि तपाइँ सञ्झ्यालको तलको छेउमा भाषा सेट अप गर्न र सम्पादन बटन तलमा छ, तथापि रेकर्ड बटन शीर्ष दायाँ स्थितिमा छ।

तपाईंले गर्नु पर्ने पहिलो कुरा एक भाषा चयन छ र यो विश्व प्रतिमा क्लिक गरेर हासिल गर्न सकिन्छ।

रेकर्डिङ शुरू गर्न, माइक्रोफोन प्रतिमामा क्लिक गर्नुहोस् र तपाईंको माइक्रोफोनमा बोल्न सुरु गर्नुहोस्। सर्वश्रेष्ठ परिणामहरूको लागि मैले भेट्टाएको कुरा बिस्तारै कुञ्जी थियो त्यसैले सफ्टवेयरले राख्ने मौका पाउँथ्यो।

नतिजाहरू राम्रो थिएनन् किनकि तल देख्न सकिन्छ:

नमस्कार र जडान गर्न स्वागत छ। त्यसो भए उनीहरुसँगको सम्बन्धको बारेमा जानकारी गराईदिनु भएको छ। यसका बारेमा जानकारी गराउनु भएको छ। मलेसियाको दक्षिण अफ्रिकाको दक्षिण अफ्रिकाबाट धेरै मानक अंग्रेजी चिनियाँ एक्स्प्रेस हो तर म यो ट्राटोरियाङमा पुगिरहेको छु। वास्तविक दस्तावेज संग र तपाईं गल्तिहरु को लागी कि गल्ती गर्न को लागी गलतियों को लागी देख सकते हो

डिक्टेटोट

Dictanote अर्को क्रोम अनुप्रयोग हो जुन आलेखन प्रयोजनका लागि प्रयोग गर्न सकिन्छ र अधिक सहज हुन सक्छ तर परिणामहरू VoiceNote II भन्दा राम्रो थिएन।

मैले डिक्टेटोटको डेमो संस्करणलाई मात्र प्रयोग गर्थें जुन तपाईंलाई नयाँ कागजातहरू सिर्जना गर्नबाट रोक्छ तर यसले तपाईंलाई सम्पादकको रूपमा पाठमा कुरा गर्दछ। म आवाज पहिचान परीक्षण गर्न सक्षम थियो तर परिणाम आवाज नोट II बाट राम्रो थिएन र त्यसैले मैले प्रो संस्करणको लागि साइन अप गरेन।

डिक्शनेशन र मेल

"डिक्शनेशन र मेल" एक एन्ड्रोइड अनुप्रयोग हो जुन मूल Google आवाज पहिचान एपीआई प्रयोग गर्दछ।

"डटकेशन र मेल" बाट परिणामहरू यस बिन्दुको प्रयासमा अन्य कुनै कार्यक्रम भन्दा धेरै राम्रो थिए।

नमस्ते लिनक्स को बारे मा स्वागत छ।, आज हामी ध्वनि को पाठ को बदलन को बारे मा कुरा गर्छन

"डटकेशन र मेल" को साथ चाल धीरे-धीरे बोल्नु पर्छ र साथसाथै तपाईं पनि एक उच्चारण संग गर्न सक्नुहुन्छ।

तपाईंले कुराकानी समाप्त गरे पछि तपाई आफैले परिणामहरू इमेल गर्न सक्नुहुनेछ।

टक र टक डटकन

अर्को एण्ड्रोइड अनुप्रयोग जुन मैले प्रयास गरें "टक र टक डटकेशन"।

यस अनुप्रयोगको लागि इन्टरफेस गुच्छको उत्तम थियो र आवाज पहिचानले साँच्चै राम्रो काम गर्यो। आलेखन रेकर्ड गर्न पछि मैले परिणामहरू ईमेल मार्फत सहित विभिन्न माध्यमहरूमा साझेदारी गर्न सक्षम थिए।

लिङ्कको बारे मा आजसफ्टमा स्वागत छ हामी पाठमा भाषण परिवर्तन गर्ने बारे कुरा गरिरहेका छौं

तपाईंले माथिको पाठ देख्न सक्नु भएको छ जस्तो कि तपाईं सम्भवतः प्राप्त गर्न सक्नुहुनेछ भन्ने बारे स्पष्ट छ। बिस्तारै कुरा गर्दै कुञ्जी हो।

सारांश

मूल लिनक्ससँग आवाज आवाजको सन्दर्भमा र विशेष रूप देखि बोलपत्रको साथ जाने को लागि केहि तरिका छ। त्यहाँ केही अनुप्रयोगहरू जुन Google भ्वाईस एपीआई प्रयोग गर्दछ तर तिनीहरू अझै भण्डारमा सूचीबद्ध छैनन्।

क्रोमस अनुप्रयोगहरू एकदम राम्रो छन् तर मेरो एन्ड्रोइड फोन प्रयोग गरेर सबैभन्दा उत्तम नतिजा प्राप्त भयो। सायद फोनमा एक राम्रो माइक्रोफोन छ र यसैले भ्वाईस पहिचान सफ्टवेयरले परिवर्तनको राम्रो मौका खडा गर्छ।

भ्वाईस पहिचानको लागि वास्तवमा प्रयोगयोग्य हुनको लागी यो कम सेटअप आवश्यक संग अधिक सहज हुन आवश्यक छ। तपाईंले यसलाई सुचारु बनाउनको लागि भाषाको मोडेल र शब्दकोशहरूसँग वरिपरि गहिरो गल्ती गर्न आवश्यक पर्दैन।

म यो सराहना गर्छु कि आवाज मान्यता को सम्पूर्ण कला धेरै चुनौतीपूर्ण छ किनकि सबैले एक फरक आवाज छ र एक देशको क्षेत्रमा क्षेत्रबाट धेरै बोलिएका छन् भने संसारभरि प्रयोग हुने सैकड़ों भाषाहरूको बारेमा चिन्तित छैन।

मेरो विश्लेषण, यसैले, कि आवाज मान्यता सफ्टवेयर अझै प्रगतिमा काम गर्दछ।