ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान

कुण्डलिनी और लेखन कला एक-दूसरे से जुड़े हुए हैं

पाठक सोचते होंगे कि कुण्डलिनी-वैबसाईट में स्वयंप्रकाशन व वेबसाईट-निर्माण के विषय किस उद्देश्य से डाले गए हैं।  वास्तव में कुण्डलिनी-साधक को स्वयंप्रकाशन का व वेबसाईट-निर्माण का भी व्यावहारिक अनुभव होना चाहिए।  ऐसा इसलिए है, क्योंकि कुण्डलिनी-क्रियाशीलता या कुण्डलिनी-जागरण के बाद दिमाग में मननशीलता की बाढ़ जैसी आ जाती है।  उस स्थिति में व्यक्ति एक उत्कृष्ट पुस्तक व वेबसाईट का निर्माण कर सकता है।  साथ में, इससे वह खालीपन की नकारात्मकता से भी बच सकता है। प्रेमयोगी वज्र के साथ भी ऐसा ही हुआ।

मैं ओसीआर तकनीक तक कैसे पहुंचा

ओसीआर (ocr) तकनीक से मेरा सामना तब हुआ, जब मैं अपने पिता द्वारा लिखित लगभग सात साल पुरानी एक कागजी पुस्तक का ई-पुस्तक वाला रूप बनाने का प्रयत्न कर रहा था। पुस्तक का नाम था ‘सोलन की सर्वहित साधना’। सौभाग्य से उस पुस्तक की सॉफ्ट कोपी प्रकाशक के पास मिल गई। इससे मैं पुस्तक को स्कैन करने से बच गया। साथ में, संभवतः सॉफ्ट कोपी से बनाई गई ई-पुस्तक में कम अशुद्धियाँ होती हैं। वह पुस्तक पीडीएफ फोर्मेट में थी। पहले तो मैं ऑनलाईन पीडीएफ कन्वर्टर की सहायता लेने लगा। मैंने कई प्रकार के कन्वर्टर को ट्राय करके देखा, गूगल ड्राईवर के कन्वर्टर को भी। परन्तु सभी में जो वर्ड फाईल कन्वर्ट होकर आ रही थी, उसके अक्षर तो पूर्णतया दोषपूर्ण थे। वह हिंदी पुस्तक तो कोई चाइनीज पुस्तक लग रही थी। फिर पीडीएफ एलीमेंट का प्रयोग किया। उसमें मुफ्त के प्लान में कुछ ही पेज एक्सट्रेक्ट करने की छूट थी। पेज तो पीडीएफ फाईल से वर्ड फाईल को एक्सट्रेक्ट हो गए थे, पर उन पृष्ठों में पट्टियों, फूलों आदि से सजावट जस की तस बनी हुई थी। वे सजावट की चीजें मुझसे रिमूव नहीं हो रही थीं। कुछ हो भी रही थीं, पर सभी नहीं। अक्षरों की गुणवत्ता भी अधिक अच्छी नहीं थी। मैंने सोचा कि शायद खरीदे जाने वाले प्लान से कोई बात बन जाए। परन्तु जब उसकी कीमत देखी, तो मैं एकदम पीछे हट गया। क्योंकि उसकी न्यूनतम सालाना कीमत लगभग 3000-4000 रुपए की थी।

मुफ्त में उपलब्ध ऑनलाईन फाईल कन्वर्टर से मुझे बहुत सहायता मिली

कई महीनों तक मेरी योजना ठन्डे बस्ते में पड़ी रही। फिर जब मुझे कुछ खाली समय प्राप्त हुआ, तब मैंने गूगल पर सर्च किया। ओसीआर तो मैंने पहले भी पढ़ रखा था, पर मुझे कभी भी पूरी तरह से समझ नहीं आया था। फिर मुझे एक वेबपोस्ट में पता चला कि उसके लिए पुस्तक को स्कैन करना पड़ता है, ताकि पुस्तक का प्रत्येक पृष्ठ एक अलग चित्र के रूप में आ जाए। जैसे ही मैं पुस्तक के स्कैन की तैयारी कर रहा था, वैसे ही मुझे पता चला कि यदि पुस्तक पीडीएफ फाईल के रूप में उपलब्ध हो, तो उसे सीधे ही चित्र-फाईल के रूप में कन्वर्ट किया जा सकता है। मैंने गूगल पर ‘पीडीएफ इमेज एक्सट्रेक्शन’ से सर्च करके बहुत से ऑनलाईन कन्वर्टर ट्राय किए। उनमें मुझे स्मालपीडीएफडॉटकोम पर उपलब्ध कन्वर्टर सर्वोत्तम लगा। मैंने उसमें एक ही बार में सारी बुक-फाईल अपलोड कर दी। कनवर्शन के बाद सारी बुक-फाईल डाऊनलोड कर दी। उससे कम्प्यूटर के डाऊनलोड फोल्डर में सारी बुक-फाईल क्रमवार चित्रों के रूप में आ गई। सभी चित्र एक जिपड (कंप्रेस्ड) फोल्डर में थे। उस फोल्डर को अन्जिप (विनजिप आदि सोफ्टवेयर से) करने से सभी चित्र एक साधारण फोल्डर में आ गए।

हिंदी भाषा के लिए काम करने वाले कम ही ओसीआर उपलब्ध हैं

फिर मैं उन चित्रों को वर्ड डोक में कनवर्ट करने वाले सोफ्टवेयर (ओसीआर) को गूगल में खोजने लगा। बहुत से ओसीआर ऐसे थे, जो हिंदी भाषा की सुविधा नहीं देते थे। अंत में मुझे वैबसाईट http://www.i2ocr.com पर उपलब्ध ऑनलाईन ओसीआर सर्वोत्तम लगा। वह निःशुल्क था। मैं बुक-चित्रों वाला फोल्डर एकसाथ अपलोड करने की कोशिश कर रहा था, पर नहीं हुआ। फिर मैंने सभी चित्रों को सेलेक्ट करके, सभी को एकसाथ अपलोड करने का प्रयास किया। पर वह भी नहीं हुआ। फिर मुझे एक वेबपोस्ट में पता चला कि बैच एक्सट्रेक्शन वाले ओसीआर कमर्शियल होते हैं, व मुफ्त में उपलब्ध नहीं होते। अतः मुझे एक-२ करके चित्रों को कन्वर्ट करना पड़ा। चित्रों की तरह ही कन्वर्ट हुई डोक फाईलें भी क्रमवार रूप में डाऊनलोड फोल्डर में आ गईं।

इमेज एक्सट्रेक्शन से बनाई गई वर्ड-फाईल की फोर्मेटिंग

फिर मैंने क्रम के अनुसार सभी डोक फाईलों को एक अकेली डोक फाईल में कोपी-पेस्ट कर दिया। पर डोक फाईल में अक्षरों की छोटी-बड़ी लाईनें थीं, जो जस्टिफाई एलाईनमेंट में भी ठीक नहीं हो रही थीं। फिर मैंने एक वैबपोस्ट में पढ़ा कि एमएस वर्ड के फाईन्ड-रिप्लेस के फाईन्ड सेक्शन में ^p (^ चिन्ह कीबोर्ड की शिफ्ट व 6 नंबर वाली की को एकसाथ दबाने से छपता है) को टाईप करें, व रिप्लेस में खाली सिंगल स्पेस डालें। ‘रिप्लेस आल’ की कमांड से सब ठीक हो जाता है। वैसा ही हुआ। इस तरह से वह ई-पुस्तक तैयार हुई।

यह ध्यान दिया जाना चाहिए कि यदि बहुत सारी छोटी वर्ड फ़ाइलों को एक साथ जोड़ा जाना है, तो एमएस वर्ड के ‘इंसर्ट’ की मदद ली जानी चाहिए। ‘इंसर्ट’ बटन पर क्लिक करने पर बने ‘ऑब्जेक्ट’ बटन पर क्लिक करें, और इसके कोने पर बने त्रिकोण पर क्लिक करें। अब ड्रॉपडाउन मेनू पर ‘फ़ाइल फ्रॉम टेक्स्ट’ पर क्लिक करें। एक नया ब्राउज़-विंडो पॉप अप होगा। उस पर वर्ड फ़ाइलों का चयन करें, जिन्हें क्लब किया जाना है। ध्यान रखें कि चयन के क्रम में फ़ाइलों को क्लब किया जाएगा। इसका मतलब है, चयनित समूह में पहली फ़ाइल संयुक्त वर्ड फ़ाइल में पहले आएगी और इसी तरह। मैं एक बार में अधिकतम 10 फ़ाइलों को क्लब करने की सलाह देता हूं क्योंकि मुझे लगता है कि यदि बड़ी संख्या में फ़ाइलों को एक साथ चुना जाता है तो यह सिस्टम त्रुटि पैदा कर सकता है। पर वास्तव में कन्वर्ट होने के बाद कई फाईलें वर्ड फोर्मेट में डाऊनलोड नहीं हो रही थीं। मैं हिंदी भाषा की फाईल को ओसीआर कर रहा था। टेक्स्ट फोर्मेट में वे फाईलें डाऊनलोड हो रही थीं। हालांकि टेक्स्ट फोर्मेट वाली फाईल नोटपैड में ही खुल रही थीं, वर्डनोट में नहीं। टेक्स्ट फाईलों में डाऊनलोड करने का यह नुक्सान है कि उन्हें वर्ड फाईलों की तरह इन्सर्ट-ओब्जेक्ट आदि कमांड देकर एकसाथ क्लब नहीं किया जा सकता। सबको अलग-२ कोपी-पेस्ट करना पड़ता है।

फाईनल फाईल करेक्शन

उस पुस्तक में कई जगह दो अक्षर जुड़े हुए थे। जैसे कि मूल पुस्तक के ‘फल का’ शब्दों का ‘फलका’ बन गया था। थोड़ी सी मेनुअल करेक्शन से सब ठीक हो गया। कागजी पुस्तक को सामने रखकर उपयुक्त स्थानों पर पेजब्रेक, लाइनब्रेक, हैडिंग शेप आदि दिए गए, ताकि ई-पुस्तक पूर्णतः मूल पुस्तक की तरह लगती। कवर के व शुरू के कुछ चित्रात्मक पृष्ठों को सीधे ही ई-पुस्तक में इन्सर्ट किया गया। इन कवर फ़ोटो के संपादन के लिए मैंने ‘फोटोजेट’ के ऑनलाइन फोटो संपादक का उपयोग किया। हालाँकि, संपादित छवि डाउनलोड करने से पहले इस ऐप को फेस बुक पर साझा करना पड़ता है। Pixlr.com का ऑनलाइन संपादक भी अच्छा है। चित्रों को सीधे कोपी-पेस्ट करने की बजाय एमएस वर्ड की ‘इन्सर्ट-पिक्चर’ की सहायता ली गई, क्योंकि सीधे कोपी-पेस्ट करने से कई बार ई-बुक में चित्र दिखता ही नहीं।

ओसीआर में कुछ विशेष ध्यान देने योग्य बातें

पुस्तक को स्केन करने से पहले यह देख लें की पुस्तक कितनी पुरानी है। बहुत पुरानी पुस्तकों का ओसीआर नहीं हो पाता। पुस्तक की बाईंडिंग खोलकर प्रत्येक पेज को अलग से सकेन करना पडेगा। पुस्तक को फोल्ड करके स्केन करने से किनारे के अक्षर ढंग से स्कैन नहीं होते, जिससे वे ओसीआर नहीं हो पाते। बाद में आप पुस्तक की पुनः बाईन्डिंग करवा सकते हो। डबल पेज स्कैन करके भी ओसीआर नहीं हो पाता। पेज उसी हिसाब से स्कैनर पर रखना पड़ेगा, जैसा कि आमतौर पर सिंगल पेज रखा जाता है। पेज की लम्बाई स्कैनर की लम्बाई की दिशा में रखी जाती है। पेज सामान्य पुस्तक के पेज की तरह लिखा होना चाहिए, यानी अक्षरों की पंक्तियाँ पेज की चौड़ाई की दिशा में कवर करती हों। स्कैनर पर पेज जितना सीधा होगा, उतना ही अच्छा ओसीआर होगा। इसलिए पेज को स्कैनर-ग्लास की लम्बाई वाली बैक साईड प्लास्टिक बाउंडरी से सटा कर रखा जाना चाहिए। इससे पेज खुद ही सीधा आ जाता है। लैन्थवाईज तो पेज स्कैनर के बीच में आना चाहिए।

फाईल को सुधारने के लिए ओसीआर करने से पहले आसान विकल्प भी आजमा लें

कई बार तो ओसीआर करने की जरूरत ही नहीं पड़ती, क्योंकि फोंट को कन्वर्ट करके काम चल पड़ता है। हर जगह चलने वाला फोंट यूनिकोड है। मैंने एक क्रुतिदेव (krutidev) फोंट में टाईप किए हुए पीडीएफ लेख को वर्ड-लेख में कन्वर्ट किया, परन्तु उसके अक्षर पढ़े नहीं जा रहे थे। फिर मैंने ऑनलाईन फॉण्ट कन्वर्टर में फाईल को डालकर उसके क्रुतिदेव फोंट को यूनिकोड में कन्वर्ट किया। फिर जाकर अक्षर पढ़े गए। १-२ प्रकार के ही अक्षर गलत थे, वो भी कहीं-२ पर ही। थोड़ी सी मेहनत से लेख मैंने करेक्ट कर दिया। वह मेहनत ओसीआर में लगने वाली मेहनत से काफी कम थी। फिर भी ओसीआर दुबारा टाईप करने से बहुत ज्यादा आसान है।

भविष्य की तकनीक ‘हैण्ड टैक्स्ट रिकोग्निशन’

इससे आगे की तकनीक हाथ से लिखे लेख को ओसीआर करने की है। इसे ‘हैण्ड टैक्स्ट रिकोग्निशन’ कहते हैं। परन्तु यह पूरा विकसित नहीं हुआ है। इस पर खोज जारी है। हालांकि डब्बों वाले कागजी फोर्मेट में एक-२ डब्बे में एक-२ अक्षर को डालने से यह तकनीक काम कर जाती है। तभी तो सेवा-भरती या पंजीकरण आदि के अधिकाँश परिचय-फॉर्म भरने के लिए डब्बों वाले फोर्मेट का प्रयोग किया जाता है।

यदि आपने इस लेख/पोस्ट को पसंद किया तो कृपया “लाईक” बटन को क्लिक करें, इसे शेयर करें, इस वार्तालाप/ब्लॉग को अनुसृत/फॉलो करें, व साथ में अपना विद्युतसंवाद पता/ई-मेल एड्रेस भी दर्ज करें, ताकि इस ब्लॉग के सभी नए लेख एकदम से सीधे आपतक पहुंच सकें। कमेन्ट सैक्शन में अपनी राय जाहिर करना न भूलें।

Please click on this link to view this post in English (OCR, Optical Recognition System, a boon for modern publishing)

Published by

demystifyingkundalini by Premyogi vajra- प्रेमयोगी वज्र-कृत कुण्डलिनी-रहस्योद्घाटन

I am as natural as air and water. I take in hand whatever is there to work hard and make a merry. I am fond of Yoga, Tantra, Music and Cinema. मैं हवा और पानी की तरह प्राकृतिक हूं। मैं कड़ी मेहनत करने और रंगरलियाँ मनाने के लिए जो कुछ भी काम देखता हूँ, उसे हाथ में ले लेता हूं। मुझे योग, तंत्र, संगीत और सिनेमा का शौक है।

One thought on “ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान”

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s