ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान

पाठक सोचते होंगे कि कुण्डलिनी-वैबसाईट में स्वयंप्रकाशन व वेबसाईट-निर्माण के विषय किस उद्देश्य से डाले गए हैं।  वास्तव में कुण्डलिनी-साधक को स्वयंप्रकाशन का व वेबसाईट-निर्माण का भी व्यावहारिक अनुभव होना चाहिए।  ऐसा इसलिए है, क्योंकि कुण्डलिनी-क्रियाशीलता या कुण्डलिनी-जागरण के बाद दिमाग में मननशीलता की बाढ़ जैसी आ जाती है।  उस स्थिति में व्यक्ति एक उत्कृष्ट पुस्तक व वेबसाईट का निर्माण कर सकता है।  साथ में, इससे वह खालीपन की नकारात्मकता से भी बच सकता है। प्रेमयोगी वज्र के साथ भी ऐसा ही हुआ।

ओसीआर (ocr) तकनीक से मेरा सामना तब हुआ, जब मैं अपने पिता द्वारा लिखित लगभग सात साल पुरानी एक कागजी पुस्तक का ई-पुस्तक वाला रूप बनाने का प्रयत्न कर रहा था। पुस्तक का नाम था ‘सोलन की सर्वहित साधना’। सौभाग्य से उस पुस्तक की सॉफ्ट कोपी प्रकाशक के पास मिल गई। इससे मैं पुस्तक को स्कैन करने से बच गया। साथ में, संभवतः सॉफ्ट कोपी से बनाई गई ई-पुस्तक में कम अशुद्धियाँ होती हैं। वह पुस्तक पीडीएफ फोर्मेट में थी। पहले तो मैं ऑनलाईन पीडीएफ कन्वर्टर की सहायता लेने लगा। मैंने कई प्रकार के कन्वर्टर को ट्राय करके देखा, गूगल ड्राईवर के कन्वर्टर को भी। परन्तु सभी में जो वर्ड फाईल कन्वर्ट होकर आ रही थी, उसके अक्षर तो पूर्णतया दोषपूर्ण थे। वह हिंदी पुस्तक तो कोई चाइनीज पुस्तक लग रही थी। फिर पीडीएफ एलीमेंट का प्रयोग किया। उसमें मुफ्त के प्लान में कुछ ही पेज एक्सट्रेक्ट करने की छूट थी। पेज तो पीडीएफ फाईल से वर्ड फाईल को एक्सट्रेक्ट हो गए थे, पर उन पृष्ठों में पट्टियों, फूलों आदि से सजावट जस की तस बनी हुई थी। वे सजावट की चीजें मुझसे रिमूव नहीं हो रही थीं। कुछ हो भी रही थीं, पर सभी नहीं। अक्षरों की गुणवत्ता भी अधिक अच्छी नहीं थी। मैंने सोचा कि शायद खरीदे जाने वाले प्लान से कोई बात बन जाए। परन्तु जब उसकी कीमत देखी, तो मैं एकदम पीछे हट गया। क्योंकि उसकी न्यूनतम सालाना कीमत लगभग 3000-4000 रुपए की थी।

कई महीनों तक मेरी योजना ठन्डे बस्ते में पड़ी रही। फिर जब मुझे कुछ खाली समय प्राप्त हुआ, तब मैंने गूगल पर सर्च किया। ओसीआर तो मैंने पहले भी पढ़ रखा था, पर मुझे कभी भी पूरी तरह से समझ नहीं आया था। फिर मुझे एक वेबपोस्ट में पता चला कि उसके लिए पुस्तक को स्कैन करना पड़ता है, ताकि पुस्तक का प्रत्येक पृष्ठ एक अलग चित्र के रूप में आ जाए। जैसे ही मैं पुस्तक के स्कैन की तैयारी कर रहा था, वैसे ही मुझे पता चला कि यदि पुस्तक पीडीएफ फाईल के रूप में उपलब्ध हो, तो उसे सीधे ही चित्र-फाईल के रूप में कन्वर्ट किया जा सकता है। मैंने गूगल पर ‘पीडीएफ इमेज एक्सट्रेक्शन’ से सर्च करके बहुत से ऑनलाईन कन्वर्टर ट्राय किए। उनमें मुझे स्मालपीडीएफडॉटकोम पर उपलब्ध कन्वर्टर सर्वोत्तम लगा। मैंने उसमें एक ही बार में सारी बुक-फाईल अपलोड कर दी। कनवर्शन के बाद सारी बुक-फाईल डाऊनलोड कर दी। उससे कम्प्यूटर के डाऊनलोड फोल्डर में सारी बुक-फाईल क्रमवार चित्रों के रूप में आ गई। सभी चित्र एक जिपड (कंप्रेस्ड) फोल्डर में थे। उस फोल्डर को अन्जिप (विनजिप आदि सोफ्टवेयर से) करने से सभी चित्र एक साधारण फोल्डर में आ गए।

फिर मैं उन चित्रों को वर्ड डोक में कनवर्ट करने वाले सोफ्टवेयर (ओसीआर) को गूगल में खोजने लगा। बहुत से ओसीआर ऐसे थे, जो हिंदी भाषा की सुविधा नहीं देते थे। अंत में मुझे वैबसाईट http://www.i2ocr.com पर उपलब्ध ऑनलाईन ओसीआर सर्वोत्तम लगा। वह निःशुल्क था। मैं बुक-चित्रों वाला फोल्डर एकसाथ अपलोड करने की कोशिश कर रहा था, पर नहीं हुआ। फिर मैंने सभी चित्रों को सेलेक्ट करके, सभी को एकसाथ अपलोड करने का प्रयास किया। पर वह भी नहीं हुआ। फिर मुझे एक वेबपोस्ट में पता चला कि बैच एक्सट्रेक्शन वाले ओसीआर कमर्शियल होते हैं, व मुफ्त में उपलब्ध नहीं होते। अतः मुझे एक-२ करके चित्रों को कन्वर्ट करना पड़ा। चित्रों की तरह ही कन्वर्ट हुई डोक फाईलें भी क्रमवार रूप में डाऊनलोड फोल्डर में आ गईं।

फिर मैंने क्रम के अनुसार सभी डोक फाईलों को एक अकेली डोक फाईल में कोपी-पेस्ट कर दिया। पर डोक फाईल में अक्षरों की छोटी-बड़ी लाईनें थीं, जो जस्टिफाई एलाईनमेंट में भी ठीक नहीं हो रही थीं। फिर मैंने एक वैबपोस्ट में पढ़ा कि एमएस वर्ड के फाईन्ड-रिप्लेस के फाईन्ड सेक्शन में ^p (^ चिन्ह कीबोर्ड की शिफ्ट व 6 नंबर वाली की को एकसाथ दबाने से छपता है) को टाईप करें, व रिप्लेस में खाली सिंगल स्पेस डालें। ‘रिप्लेस आल’ की कमांड से सब ठीक हो जाता है। वैसा ही हुआ। इस तरह से वह ई-पुस्तक तैयार हुई।

यह ध्यान दिया जाना चाहिए कि यदि बहुत सारी छोटी वर्ड फ़ाइलों को एक साथ जोड़ा जाना है, तो एमएस वर्ड के ‘इंसर्ट’ की मदद ली जानी चाहिए। ‘इंसर्ट’ बटन पर क्लिक करने पर बने ‘ऑब्जेक्ट’ बटन पर क्लिक करें, और इसके कोने पर बने त्रिकोण पर क्लिक करें। अब ड्रॉपडाउन मेनू पर ‘फ़ाइल फ्रॉम टेक्स्ट’ पर क्लिक करें। एक नया ब्राउज़-विंडो पॉप अप होगा। उस पर वर्ड फ़ाइलों का चयन करें, जिन्हें क्लब किया जाना है। ध्यान रखें कि चयन के क्रम में फ़ाइलों को क्लब किया जाएगा। इसका मतलब है, चयनित समूह में पहली फ़ाइल संयुक्त वर्ड फ़ाइल में पहले आएगी और इसी तरह। मैं एक बार में अधिकतम 10 फ़ाइलों को क्लब करने की सलाह देता हूं क्योंकि मुझे लगता है कि यदि बड़ी संख्या में फ़ाइलों को एक साथ चुना जाता है तो यह सिस्टम त्रुटि पैदा कर सकता है। पर वास्तव में कन्वर्ट होने के बाद कई फाईलें वर्ड फोर्मेट में डाऊनलोड नहीं हो रही थीं। मैं हिंदी भाषा की फाईल को ओसीआर कर रहा था। टेक्स्ट फोर्मेट में वे फाईलें डाऊनलोड हो रही थीं। हालांकि टेक्स्ट फोर्मेट वाली फाईल नोटपैड में ही खुल रही थीं, वर्डनोट में नहीं। टेक्स्ट फाईलों में डाऊनलोड करने का यह नुक्सान है कि उन्हें वर्ड फाईलों की तरह इन्सर्ट-ओब्जेक्ट आदि कमांड देकर एकसाथ क्लब नहीं किया जा सकता। सबको अलग-२ कोपी-पेस्ट करना पड़ता है।

उस पुस्तक में कई जगह दो अक्षर जुड़े हुए थे। जैसे कि मूल पुस्तक के ‘फल का’ शब्दों का ‘फलका’ बन गया था। थोड़ी सी मेनुअल करेक्शन से सब ठीक हो गया। कागजी पुस्तक को सामने रखकर उपयुक्त स्थानों पर पेजब्रेक, लाइनब्रेक, हैडिंग शेप आदि दिए गए, ताकि ई-पुस्तक पूर्णतः मूल पुस्तक की तरह लगती। कवर के व शुरू के कुछ चित्रात्मक पृष्ठों को सीधे ही ई-पुस्तक में इन्सर्ट किया गया। इन कवर फ़ोटो के संपादन के लिए मैंने ‘फोटोजेट’ के ऑनलाइन फोटो संपादक का उपयोग किया। हालाँकि, संपादित छवि डाउनलोड करने से पहले इस ऐप को फेस बुक पर साझा करना पड़ता है। Pixlr.com का ऑनलाइन संपादक भी अच्छा है। चित्रों को सीधे कोपी-पेस्ट करने की बजाय एमएस वर्ड की ‘इन्सर्ट-पिक्चर’ की सहायता ली गई, क्योंकि सीधे कोपी-पेस्ट करने से कई बार ई-बुक में चित्र दिखता ही नहीं।

इससे आगे की तकनीक हाथ से लिखे लेख को ओसीआर करने की है। इसे ‘हैण्ड टैक्स्ट रिकोग्निशन’ कहते हैं। परन्तु यह पूरा विकसित नहीं हुआ है। इस पर खोज जारी है। हालांकि डब्बों वाले कागजी फोर्मेट में एक-२ डब्बे में एक-२ अक्षर को डालने से यह तकनीक काम कर जाती है। तभी तो सेवा-भरती या पंजीकरण आदि के अधिकाँश परिचय-फॉर्म भरने के लिए डब्बों वाले फोर्मेट का प्रयोग किया जाता है।

यदि आपने इस लेख/पोस्ट को पसंद किया तो कृपया “लाईक” बटन को क्लिक करें, इसे शेयर करें, इस वार्तालाप/ब्लॉग को अनुसृत/फॉलो करें, व साथ में अपना विद्युतसंवाद पता/ई-मेल एड्रेस भी दर्ज करें, ताकि इस ब्लॉग के सभी नए लेख एकदम से सीधे आपतक पहुंच सकें। कमेन्ट सैक्शन में अपनी राय जाहिर करना न भूलें।

Please click on this link to view this post in English (OCR, Optical Recognition System, a boon for modern publishing)

Published by

demystifyingkundalini by Premyogi vajra- प्रेमयोगी वज्र-कृत कुण्डलिनी-रहस्योद्घाटन

I am as natural as air and water. I take in hand whatever is there to work hard and make a merry. I am fond of Yoga, Tantra, Music and Cinema. मैं हवा और पानी की तरह प्राकृतिक हूं। मैं कड़ी मेहनत करने और रंगरलियाँ मनाने के लिए जो कुछ भी काम देखता हूँ, उसे हाथ में ले लेता हूं। मुझे योग, तंत्र, संगीत और सिनेमा का शौक है।

One thought on “ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान”

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s