लिनक्स आवाज पहचान राज्य

परिचय

मैं लेखों के लिए बहुत समय व्यतीत करता हूं और ट्रेन स्टेशन पर या सामान्य रूप से बाहर जाने के दौरान अक्सर एक लेख के विषय वस्तु के बारे में सोचता हूं।

एक शाम मेरे काम से स्टेशन से 1.5 मील की दूरी पर चलने के दौरान मैंने सोचा "क्या यह अच्छा नहीं होगा अगर मैं जो कहना चाहता हूं उसे रिकॉर्ड कर सकूं और फिर इसे स्वचालित रूप से एक टेक्स्ट फ़ाइल में ट्रांसक्रिप्ट कर दिया हो जिसे मैं संपादित और बाद में प्रारूपित कर सकता हूं" ।

मैंने ध्वनि पहचान और श्रुतलेख के लिए उपलब्ध विभिन्न विकल्पों को देखने में कई घंटे बिताए हैं, जिसमें लिनक्स में श्रुतलेख सॉफ़्टवेयर का उपयोग करके माइक्रोफ़ोन के माध्यम से सीधे रिकॉर्डिंग, एमपी 3 या डब्ल्यूएवी प्रारूप में फ़ाइल रिकॉर्ड करना और कमांड लाइन के माध्यम से इसे परिवर्तित करना, साथ ही क्रोम का उपयोग करना और एंड्रॉइड अनुप्रयोगों।

यह लेख कठिन श्रम के दिनों के बाद मेरे निष्कर्षों पर प्रकाश डाला गया है।

लिनक्स विकल्प

लिनक्स में श्रुतलेख और आवाज पहचान सॉफ्टवेयर खोजने की कोशिश करना उतना आसान नहीं है जितना यह हो सकता है और उपलब्ध विकल्प चालाक नहीं हैं।

इस विकिपीडिया पेज में सीएमयू स्फिंक्स, जूलियस और साइमन समेत संभावित विकल्पों की एक सूची है।

मैं स्पार्कलिंक्स का उपयोग कर रहा हूं जो इस समय डेबियन परीक्षण पर आधारित है और मैं आपको बता सकता हूं कि भंडार में उपलब्ध एकमात्र आवाज पहचान पैकेज स्फिंक्स है।

देशी लिनक्स प्रोग्राम जो मैंने कोशिश कर रहे थे, वे पॉकेटस्फिनक्स थे, जिन्हें मैं डब्ल्यूएवी फाइलों को टेक्स्ट और फ्रीस्पेच-वीआर में परिवर्तित करने के लिए उपयोग करता था जो कि एक पायथन एप्लिकेशन है जो आपको सीधे माइक्रोफोन से रिकॉर्ड करने देता है।

मैंने वॉयस नोट II और डिक्टानोट सहित कुछ क्रोम ऐप्स भी आज़माए।

अंत में मैंने "डिक्टेशन एंड ईमेल" और "टॉक एंड टॉक डिक्टेशन" एंड्रॉइड ऐप की कोशिश की।

Freespeech-वी.आर.

Freespeech-VR मानक भंडारों में उपलब्ध नहीं है। मैंने यहां से फाइलें डाउनलोड की हैं।

ज़िप फ़ाइल की सामग्री को डाउनलोड करने और निकालने के बाद मैंने एक टर्मिनल खोला और उस फ़ोल्डर में नेविगेट किया जहां फाइलों को निकाला गया था।

मैंने freespeech-vr खोलने के लिए निम्न आदेश टाइप किया।

सूडो पायथन freespeech-vr

मेरे पास एक सभ्य माइक्रोफोन और एक स्पष्ट स्पष्ट दक्षिणी अंग्रेजी उच्चारण के साथ हेडफ़ोन की एक जोड़ी है।

निम्न पाठ freespeech-vr विंडो में दिखाई दिया:

परिणाम के यूनिट कुत्तों में आपका स्वागत है आज परीक्षणों को प्रबंधित करने के तरीके को सुनिश्चित करना है परीक्षण करने के लिए जब एक पाठ प्रणाली का उपयोग करता है स्पीच मैं केवल एक को रहने की आशा रखने के लिए और एक मुर्गियों के साधन के रूप में सुनना ईए जब मेरा नाम अगली इंच फोन करता है तो यह फ़ाइल जल्द ही फ़ोनों को हाथों में फोन करती है- स्पिंक्स स्पेस स्पेस जा रहा है यह एक फोन नहीं होगा एक प्रशिक्षित और उपकरण बोलने का उपयोग करें जब आप समाप्त करते हैं एक उपयोग की गई फ़ाइल कहें अंतिम कहानी ए और जब तक यह बहुत सफल होता है तो यह लिनक्स उतना ही सफल होता है जितना आप बचते हैं

मैं अभी यह कहना चाहूंगा कि यह कुत्तों की वेबसाइट का यूनिट नहीं है और मैंने गोल्डन मुर्गियों के साथ कुछ भी करने का जिक्र नहीं किया। मैं वास्तव में ध्वनि पहचान सॉफ्टवेयर का उपयोग करने की प्रक्रिया का वर्णन करने की कोशिश कर रहा था।

मैंने सॉफ़्टवेयर को अलग-अलग पिच और गति सहित कुछ बार कोशिश की लेकिन सटीकता खराब थी।

PocketSphinx

पॉकेटस्फिनक्स एक डब्ल्यूएवी फ़ाइल लेने और कमांड लाइन का उपयोग कर टेक्स्ट में कनवर्ट करने में सक्षम है।

पॉकेटस्फिनक्स डेबियन रिपॉजिटरीज़ के माध्यम से उपलब्ध है और अधिकांश वितरणों के लिए उपलब्ध होना चाहिए।

पॉकेटस्फिनक्स के साथ मिले मुख्य मुद्दे यह है कि आपको आवाज पहचान, भाषा फ़ाइलों, शब्दकोशों और सिस्टम को प्रशिक्षित करने की अवधारणाओं में लगभग एक डिग्री की आवश्यकता है।

पॉकेटस्फिनक्स स्थापित करने के बाद आपको सीएमयू स्फिंक्स वेबसाइट पर जाना चाहिए और जितना संभव हो उतना जानकारी पढ़ना चाहिए। आपको निम्न मॉडल फ़ाइल डाउनलोड करने की भी आवश्यकता है।

(यदि आप मूल अंग्रेजी स्पीकर नहीं हैं तो भाषा मॉडल चुनें जो आपके लिए उपयुक्त है)।

सामान्य रूप से पॉकेटस्फिंक्स और स्फिंक्स के लिए प्रलेखन रखना व्यक्ति के लिए समझना मुश्किल है, लेकिन जो भी मैं कर सकता हूं, शब्दकोश फ़ाइलों को संभव शब्दों और भाषा मॉडल की सूची प्रदान करने के लिए संभावित उच्चारण की एक सूची है।

पॉकेटस्फिनक्स का परीक्षण करने के लिए मैंने अपनी आवाज की एक रिकॉर्डिंग, "द डेविल्स एडवोकेट" में अल पचिनो से एक स्निपेट और "मॉर्गन फ्रीमैन" से एक स्निपेट का उपयोग किया। इसका मुद्दा अलग-अलग आवाज़ों का प्रयास करना था और मेरे लिए कोई भी व्यक्ति नहीं है जो स्पष्ट रूप से मॉर्गन फ्रीमैन के रूप में एक कहानी बता सकता है और कोई भी अल पचिनो जैसी रेखा प्रदान नहीं करता है।

पॉकेटस्फिनक्स को काम करने के लिए इसे एक डब्ल्यूएवी फ़ाइल की आवश्यकता है और इसे एक निश्चित प्रारूप में होना चाहिए। अगर फ़ाइल एमपी 3 प्रारूप में है तो इसे ffmpeg कमांड का उपयोग इसे डब्ल्यूएवी प्रारूप में बदलने के लिए करें:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

पॉकेटस्फिनक्स चलाने के लिए निम्न आदेश का उपयोग करें:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous एक डब्ल्यूएवी फ़ाइल लेता है और इसे पाठ में परिवर्तित करता है।

उपरोक्त आदेश में पॉकेट्सफिनक्स को भाषा मॉडल "cmusphinx-5.0-en-us.lm" भाषा के साथ "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" नामक एक शब्दकोश फ़ाइल का उपयोग करने के लिए कहा जाता है। फ़ाइल को टेक्स्ट में कनवर्ट किया जा रहा है जिसे वॉइस 2.वॉव कहा जाता है (जो मेरी आवाज के साथ एक रिकॉर्डिंग है)। अंततः 2> सभी वर्बोज़ आउटपुट को स्थान देता है जिन्हें आपको वॉइस 2.लॉग नामक फ़ाइल में जरूरी नहीं है। परीक्षण के वास्तविक परिणाम टर्मिनल विंडो के भीतर प्रदर्शित होते हैं।

मेरी आवाज का उपयोग करने वाले परिणाम निम्नानुसार हैं:

इस सप्ताह के बारे में अगले सप्ताह में आपका स्वागत है इस बारे में एक मिनट में कौन सा मान्यता सॉफ्टवेयर है

परिणाम freespeech-vr के साथ भयानक नहीं हैं लेकिन अभी भी वास्तव में उपयोग करने योग्य नहीं हैं। मैंने तब पॉकेटस्फिनक्स को अल पचिनो के साथ प्रयोग करने का प्रयास किया लेकिन इससे कोई परिणाम नहीं मिला।

अंत में मैंने फिल्म "ब्रूस सर्वशक्तिमान" से मॉर्गन फ्रीमैन की आवाज़ का उपयोग करने की कोशिश की और यहां परिणाम हैं:

000000000: हम उसके पास होंगे
000000001: वह सब कठिन दिन है जिस दिन अभी हाँ यह सबसे ज़िंदा है कि हम जीवित हैं मैं गर्म से हिस्सा हूं
000000002: उस लिफ्ट में जो बेसबॉल के कुछ हिस्सों से बाहर निकलता है या जानती है कि जीवन में क्या करना है
000000003: वही हैं जो ठीक हो जाएंगे
000000004: उन्होंने इसे नहीं लिखा था
000000005: वे मेरे पास सही है
000000006: आपको नियम होना चाहिए
000000007: मैं आपको उम्मीद कर रहा हूं
000000008: और उन्होंने यहां सीखा कि एक चित्रण हत्यारा क्रिसमस पार्टी थी
000000009: यह ओ लिखने के तरीके में से एक बाहर निकलता है। गधे मैंने सोचा कि कुछ हमेशा पहनते हैं
000000010: एकजुट होने वाली समस्या की तरह वह अच्छा नहीं देगा, मुझे उस पल में अनुमान लगाया गया है जब हमने ऐसा नहीं सोचा था कि मैं दुनिया में हूं घरों में और मैंने देखा है
000000011: एक पिता जिसके पास है
000000012: इसके बारे में बहुत कुछ
000000013: क्या दिया गया है
000000014: आप सब कुछ जो बहुत कम नहीं पड़ता है
000000015: गिरावट में सही
000000016: बस मेरे लिए पकड़ो
000000017: यह मुझे नाखुश है अगर मुझे लगता है कि वे ऐसा करने जा रहे हैं कि वह सब उस पर विवाहित होगा, हम नहीं चाहते हैं कि मैं रास्ते के विपरीत

मेरा परीक्षण शायद ही वैज्ञानिक माना जा सकता है और पॉकेटस्फिनक्स के डेवलपर्स बता सकते हैं कि मैं सॉफ्टवेयर का सही उपयोग नहीं कर रहा हूं। ध्वनि प्रशिक्षण नामक एक तकनीक भी है जिसका उपयोग बेहतर शब्दकोश और भाषा फ़ाइलों को बनाने के लिए किया जा सकता है।

मेरी ओवरराइडिंग राय हालांकि यह है कि मानक दैनिक उपयोग के लिए यह बहुत मुश्किल है।

वॉयस नोट II

वॉयस नोट II एक क्रोम ऐप है जो Google Voice मान्यता API का उपयोग करता है।

यदि आप क्रोम या क्रोमियम ब्राउज़र का उपयोग कर रहे हैं तो आप वेब स्टोर के माध्यम से वॉयस नोट II इंस्टॉल कर सकते हैं।

वॉयस नोट II पर आइकन एक अजीब फैशन में रखे गए हैं क्योंकि आपको विंडो के नीचे भाषा सेट अप करने की आवश्यकता है और संपादन बटन भी नीचे है, हालांकि रिकॉर्ड बटन शीर्ष दाएं स्थिति में है।

आपको सबसे पहले जो करना है वह एक भाषा का चयन करना है और इसे विश्व आइकन पर क्लिक करके हासिल किया जा सकता है।

रिकॉर्डिंग शुरू करने के लिए, माइक्रोफ़ोन आइकन पर क्लिक करें और अपने माइक्रोफ़ोन में बोलना प्रारंभ करें। धीरे-धीरे बोलने वाले सर्वोत्तम परिणामों के लिए कुंजी महत्वपूर्ण थी ताकि सॉफ़्टवेयर को बनाए रखने का मौका मिले।

परिणाम नीचे नहीं देखे जा सकते थे:

हैलो और कनेक्ट करने के लिए आपका स्वागत है। वॉयस टू टेक्स्ट रूपांतरण डनलम फ़ारेरेल मंदी 2008 के रूपांतरणों के बारे में आज के लेखों के बारे में लेखों ने कहा कि 2014/2014 या आरपीएम पैकेज को दिखाने के लिए वॉयस टेक्स्ट एडन को सबसे अच्छी तरह से समर्थित किया गया है, यदि आप चुनना चाहते हैं तो पाठ को भाषण में ध्वनि प्रकार खोलें बनाम एडिनबर्ग फ्रेंच जर्मन में चुना गया है, आप समुद्र के माइक्रोफ़ोन पर संयुक्त साम्राज्य में समय प्राप्त करते हैं, हद तक आप टेक्स्ट टेक्स्ट के रूप में अपना टेक्स्ट लिखने के लिए अच्छी तरह से लिखते हैं, इसके लिए इंग्लैंड के दक्षिण से बहुत मानक अंग्रेजी उच्चारण है, लेकिन मैं इस टोरेंटलॉग में टेक्स्टविया जा रहा हूं वास्तविक दस्तावेज़ के साथ और आप उन गलतियों के लिए देख सकते हैं जो आपको सुनने के लिए तैयार करते हैं

Dictanote

डिक्टानोट एक और क्रोम ऐप है जिसका उपयोग श्रुतलेख के उद्देश्यों के लिए किया जा सकता है और अधिक सहज ज्ञान के रूप में सामने आया लेकिन परिणाम वॉयस नोट II से बेहतर नहीं थे।

मैंने केवल डिक्टानोट के डेमो संस्करण का उपयोग किया जो आपको नए दस्तावेज़ बनाने से रोकता है लेकिन यह आपको टेक्स्ट पर बात करने देता है जो पहले से ही संपादक में है। मैं आवाज पहचान का परीक्षण करने में सक्षम था लेकिन परिणाम वॉयस नोट II से बेहतर नहीं थे और इसलिए मैंने समर्थक संस्करण के लिए साइन अप नहीं किया था।

डिक्टेशन और मेल

"डिक्टेशन एंड मेल" एक एंड्रॉइड एप्लिकेशन है जो देशी Google वॉयस रिकॉग्नाइजेशन एपीआई का उपयोग करता है।

"डिक्टेशन एंड मेल" के नतीजे इस बिंदु तक किए गए किसी भी अन्य कार्यक्रम की तुलना में काफी बेहतर थे।

हैलो के बारे में लिनक्स में आपका स्वागत है। आज हम ध्वनि को पाठ में परिवर्तित करने के बारे में बात करते हैं

"डिक्टेशन एंड मेल" के साथ चाल धीरे-धीरे और प्रवणता के साथ-साथ आप एक उच्चारण के साथ भी बात कर सकते हैं।

बात करने के बाद आप परिणामों को अपने आप ईमेल कर सकते हैं।

टॉक एंड टॉक डिक्टेशन

मैंने कोशिश की अन्य एंड्रॉइड एप्लिकेशन "टॉक एंड टॉक डिक्टेशन" थी।

इस ऐप के लिए इंटरफ़ेस गुच्छा का सबसे अच्छा था और आवाज पहचान वास्तव में बहुत अच्छी तरह से काम किया। श्रुतलेख रिकॉर्ड करने के बाद मैं परिणामों को ईमेल के माध्यम से विभिन्न तरीकों से साझा करने में सक्षम था।

linux about.com में आपका स्वागत है आज हम भाषण को पाठ में परिवर्तित करने के बारे में बात कर रहे हैं

जैसा कि आप ऊपर दिए गए पाठ को उतना स्पष्ट कर सकते हैं जितना आप संभवतः प्राप्त करने की उम्मीद कर सकते हैं। धीरे-धीरे बात करना कुंजी है।

सारांश

ध्वनि लिनक्स के पास ध्वनि पहचान और विशेष रूप से श्रुतलेख के संबंध में जाने का कोई तरीका है। ऐसे कुछ एप्लिकेशन हैं जो Google Voice API का उपयोग करते हैं लेकिन वे अभी तक रिपॉजिटरीज़ में सूचीबद्ध नहीं हैं।

क्रोमोज़ एप्लिकेशन थोड़ा बेहतर हैं लेकिन अब तक मेरे एंड्रॉइड फोन का उपयोग करके सर्वोत्तम परिणाम प्राप्त किए गए हैं। शायद फोन में एक बेहतर माइक्रोफोन है और इसलिए आवाज पहचान सॉफ्टवेयर रूपांतरण का एक बेहतर मौका है।

ध्वनि पहचान के लिए वास्तव में उपयोग करने योग्य बनने के लिए इसे कम सेटअप के साथ अधिक सहज होना चाहिए। इसे समझदार बनाने के लिए आपको भाषा मॉडल और शब्दकोशों के साथ गड़बड़ करने की आवश्यकता नहीं है।

मैं सराहना करता हूं कि आवाज पहचान की पूरी कला बहुत चुनौतीपूर्ण है क्योंकि सभी के पास एक अलग आवाज है और एक देश में क्षेत्र से क्षेत्र में इतनी सारी बोलीभाषाएं पूरी दुनिया में उपयोग की जाने वाली सैकड़ों भाषाओं के बारे में चिंतित नहीं हैं।

इसलिए, मेरा विश्लेषण यह है कि आवाज पहचान सॉफ्टवेयर अभी भी प्रगति पर है।