ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान

कुण्डलिनी और लेखन कला एक-दूसरे से जुड़े हुए हैं

पाठक सोचते होंगे कि कुण्डलिनी-वैबसाईट में स्वयंप्रकाशन व वेबसाईट-निर्माण के विषय किस उद्देश्य से डाले गए हैं।  वास्तव में कुण्डलिनी-साधक को स्वयंप्रकाशन का व वेबसाईट-निर्माण का भी व्यावहारिक अनुभव होना चाहिए।  ऐसा इसलिए है, क्योंकि कुण्डलिनी-क्रियाशीलता या कुण्डलिनी-जागरण के बाद दिमाग में मननशीलता की बाढ़ जैसी आ जाती है।  उस स्थिति में व्यक्ति एक उत्कृष्ट पुस्तक व वेबसाईट का निर्माण कर सकता है।  साथ में, इससे वह खालीपन की नकारात्मकता से भी बच सकता है। प्रेमयोगी वज्र के साथ भी ऐसा ही हुआ।

मैं ओसीआर तकनीक तक कैसे पहुंचा

ओसीआर (ocr) तकनीक से मेरा सामना तब हुआ, जब मैं अपने पिता द्वारा लिखित लगभग सात साल पुरानी एक कागजी पुस्तक का ई-पुस्तक वाला रूप बनाने का प्रयत्न कर रहा था। पुस्तक का नाम था ‘सोलन की सर्वहित साधना’। सौभाग्य से उस पुस्तक की सॉफ्ट कोपी प्रकाशक के पास मिल गई। इससे मैं पुस्तक को स्कैन करने से बच गया। साथ में, संभवतः सॉफ्ट कोपी से बनाई गई ई-पुस्तक में कम अशुद्धियाँ होती हैं। वह पुस्तक पीडीएफ फोर्मेट में थी। पहले तो मैं ऑनलाईन पीडीएफ कन्वर्टर की सहायता लेने लगा। मैंने कई प्रकार के कन्वर्टर को ट्राय करके देखा, गूगल ड्राईवर के कन्वर्टर को भी। परन्तु सभी में जो वर्ड फाईल कन्वर्ट होकर आ रही थी, उसके अक्षर तो पूर्णतया दोषपूर्ण थे। वह हिंदी पुस्तक तो कोई चाइनीज पुस्तक लग रही थी। फिर पीडीएफ एलीमेंट का प्रयोग किया। उसमें मुफ्त के प्लान में कुछ ही पेज एक्सट्रेक्ट करने की छूट थी। पेज तो पीडीएफ फाईल से वर्ड फाईल को एक्सट्रेक्ट हो गए थे, पर उन पृष्ठों में पट्टियों, फूलों आदि से सजावट जस की तस बनी हुई थी। वे सजावट की चीजें मुझसे रिमूव नहीं हो रही थीं। कुछ हो भी रही थीं, पर सभी नहीं। अक्षरों की गुणवत्ता भी अधिक अच्छी नहीं थी। मैंने सोचा कि शायद खरीदे जाने वाले प्लान से कोई बात बन जाए। परन्तु जब उसकी कीमत देखी, तो मैं एकदम पीछे हट गया। क्योंकि उसकी न्यूनतम सालाना कीमत लगभग 3000-4000 रुपए की थी।

मुफ्त में उपलब्ध ऑनलाईन फाईल कन्वर्टर से मुझे बहुत सहायता मिली

कई महीनों तक मेरी योजना ठन्डे बस्ते में पड़ी रही। फिर जब मुझे कुछ खाली समय प्राप्त हुआ, तब मैंने गूगल पर सर्च किया। ओसीआर तो मैंने पहले भी पढ़ रखा था, पर मुझे कभी भी पूरी तरह से समझ नहीं आया था। फिर मुझे एक वेबपोस्ट में पता चला कि उसके लिए पुस्तक को स्कैन करना पड़ता है, ताकि पुस्तक का प्रत्येक पृष्ठ एक अलग चित्र के रूप में आ जाए। जैसे ही मैं पुस्तक के स्कैन की तैयारी कर रहा था, वैसे ही मुझे पता चला कि यदि पुस्तक पीडीएफ फाईल के रूप में उपलब्ध हो, तो उसे सीधे ही चित्र-फाईल के रूप में कन्वर्ट किया जा सकता है। मैंने गूगल पर ‘पीडीएफ इमेज एक्सट्रेक्शन’ से सर्च करके बहुत से ऑनलाईन कन्वर्टर ट्राय किए। उनमें मुझे स्मालपीडीएफडॉटकोम पर उपलब्ध कन्वर्टर सर्वोत्तम लगा। मैंने उसमें एक ही बार में सारी बुक-फाईल अपलोड कर दी। कनवर्शन के बाद सारी बुक-फाईल डाऊनलोड कर दी। उससे कम्प्यूटर के डाऊनलोड फोल्डर में सारी बुक-फाईल क्रमवार चित्रों के रूप में आ गई। सभी चित्र एक जिपड (कंप्रेस्ड) फोल्डर में थे। उस फोल्डर को अन्जिप (विनजिप आदि सोफ्टवेयर से) करने से सभी चित्र एक साधारण फोल्डर में आ गए।

हिंदी भाषा के लिए काम करने वाले कम ही ओसीआर उपलब्ध हैं

फिर मैं उन चित्रों को वर्ड डोक में कनवर्ट करने वाले सोफ्टवेयर (ओसीआर) को गूगल में खोजने लगा। बहुत से ओसीआर ऐसे थे, जो हिंदी भाषा की सुविधा नहीं देते थे। अंत में मुझे वैबसाईट http://www.i2ocr.com पर उपलब्ध ऑनलाईन ओसीआर सर्वोत्तम लगा। वह निःशुल्क था। मैं बुक-चित्रों वाला फोल्डर एकसाथ अपलोड करने की कोशिश कर रहा था, पर नहीं हुआ। फिर मैंने सभी चित्रों को सेलेक्ट करके, सभी को एकसाथ अपलोड करने का प्रयास किया। पर वह भी नहीं हुआ। फिर मुझे एक वेबपोस्ट में पता चला कि बैच एक्सट्रेक्शन वाले ओसीआर कमर्शियल होते हैं, व मुफ्त में उपलब्ध नहीं होते। अतः मुझे एक-२ करके चित्रों को कन्वर्ट करना पड़ा। चित्रों की तरह ही कन्वर्ट हुई डोक फाईलें भी क्रमवार रूप में डाऊनलोड फोल्डर में आ गईं।

इमेज एक्सट्रेक्शन से बनाई गई वर्ड-फाईल की फोर्मेटिंग

फिर मैंने क्रम के अनुसार सभी डोक फाईलों को एक अकेली डोक फाईल में कोपी-पेस्ट कर दिया। पर डोक फाईल में अक्षरों की छोटी-बड़ी लाईनें थीं, जो जस्टिफाई एलाईनमेंट में भी ठीक नहीं हो रही थीं। फिर मैंने एक वैबपोस्ट में पढ़ा कि एमएस वर्ड के फाईन्ड-रिप्लेस के फाईन्ड सेक्शन में ^p (^ चिन्ह कीबोर्ड की शिफ्ट व 6 नंबर वाली की को एकसाथ दबाने से छपता है) को टाईप करें, व रिप्लेस में खाली सिंगल स्पेस डालें। ‘रिप्लेस आल’ की कमांड से सब ठीक हो जाता है। वैसा ही हुआ। इस तरह से वह ई-पुस्तक तैयार हुई।

यह ध्यान दिया जाना चाहिए कि यदि बहुत सारी छोटी वर्ड फ़ाइलों को एक साथ जोड़ा जाना है, तो एमएस वर्ड के ‘इंसर्ट’ की मदद ली जानी चाहिए। ‘इंसर्ट’ बटन पर क्लिक करने पर बने ‘ऑब्जेक्ट’ बटन पर क्लिक करें, और इसके कोने पर बने त्रिकोण पर क्लिक करें। अब ड्रॉपडाउन मेनू पर ‘फ़ाइल फ्रॉम टेक्स्ट’ पर क्लिक करें। एक नया ब्राउज़-विंडो पॉप अप होगा। उस पर वर्ड फ़ाइलों का चयन करें, जिन्हें क्लब किया जाना है। ध्यान रखें कि चयन के क्रम में फ़ाइलों को क्लब किया जाएगा। इसका मतलब है, चयनित समूह में पहली फ़ाइल संयुक्त वर्ड फ़ाइल में पहले आएगी और इसी तरह। मैं एक बार में अधिकतम 10 फ़ाइलों को क्लब करने की सलाह देता हूं क्योंकि मुझे लगता है कि यदि बड़ी संख्या में फ़ाइलों को एक साथ चुना जाता है तो यह सिस्टम त्रुटि पैदा कर सकता है। पर वास्तव में कन्वर्ट होने के बाद कई फाईलें वर्ड फोर्मेट में डाऊनलोड नहीं हो रही थीं। मैं हिंदी भाषा की फाईल को ओसीआर कर रहा था। टेक्स्ट फोर्मेट में वे फाईलें डाऊनलोड हो रही थीं। हालांकि टेक्स्ट फोर्मेट वाली फाईल नोटपैड में ही खुल रही थीं, वर्डनोट में नहीं। टेक्स्ट फाईलों में डाऊनलोड करने का यह नुक्सान है कि उन्हें वर्ड फाईलों की तरह इन्सर्ट-ओब्जेक्ट आदि कमांड देकर एकसाथ क्लब नहीं किया जा सकता। सबको अलग-२ कोपी-पेस्ट करना पड़ता है।

फाईनल फाईल करेक्शन

उस पुस्तक में कई जगह दो अक्षर जुड़े हुए थे। जैसे कि मूल पुस्तक के ‘फल का’ शब्दों का ‘फलका’ बन गया था। थोड़ी सी मेनुअल करेक्शन से सब ठीक हो गया। कागजी पुस्तक को सामने रखकर उपयुक्त स्थानों पर पेजब्रेक, लाइनब्रेक, हैडिंग शेप आदि दिए गए, ताकि ई-पुस्तक पूर्णतः मूल पुस्तक की तरह लगती। कवर के व शुरू के कुछ चित्रात्मक पृष्ठों को सीधे ही ई-पुस्तक में इन्सर्ट किया गया। इन कवर फ़ोटो के संपादन के लिए मैंने ‘फोटोजेट’ के ऑनलाइन फोटो संपादक का उपयोग किया। हालाँकि, संपादित छवि डाउनलोड करने से पहले इस ऐप को फेस बुक पर साझा करना पड़ता है। Pixlr.com का ऑनलाइन संपादक भी अच्छा है। चित्रों को सीधे कोपी-पेस्ट करने की बजाय एमएस वर्ड की ‘इन्सर्ट-पिक्चर’ की सहायता ली गई, क्योंकि सीधे कोपी-पेस्ट करने से कई बार ई-बुक में चित्र दिखता ही नहीं।

ओसीआर में कुछ विशेष ध्यान देने योग्य बातें

पुस्तक को स्केन करने से पहले यह देख लें की पुस्तक कितनी पुरानी है। बहुत पुरानी पुस्तकों का ओसीआर नहीं हो पाता। पुस्तक की बाईंडिंग खोलकर प्रत्येक पेज को अलग से सकेन करना पडेगा। पुस्तक को फोल्ड करके स्केन करने से किनारे के अक्षर ढंग से स्कैन नहीं होते, जिससे वे ओसीआर नहीं हो पाते। बाद में आप पुस्तक की पुनः बाईन्डिंग करवा सकते हो। डबल पेज स्कैन करके भी ओसीआर नहीं हो पाता। पेज उसी हिसाब से स्कैनर पर रखना पड़ेगा, जैसा कि आमतौर पर सिंगल पेज रखा जाता है। पेज की लम्बाई स्कैनर की लम्बाई की दिशा में रखी जाती है। पेज सामान्य पुस्तक के पेज की तरह लिखा होना चाहिए, यानी अक्षरों की पंक्तियाँ पेज की चौड़ाई की दिशा में कवर करती हों। स्कैनर पर पेज जितना सीधा होगा, उतना ही अच्छा ओसीआर होगा। इसलिए पेज को स्कैनर-ग्लास की लम्बाई वाली बैक साईड प्लास्टिक बाउंडरी से सटा कर रखा जाना चाहिए। इससे पेज खुद ही सीधा आ जाता है। लैन्थवाईज तो पेज स्कैनर के बीच में आना चाहिए।

फाईल को सुधारने के लिए ओसीआर करने से पहले आसान विकल्प भी आजमा लें

कई बार तो ओसीआर करने की जरूरत ही नहीं पड़ती, क्योंकि फोंट को कन्वर्ट करके काम चल पड़ता है। हर जगह चलने वाला फोंट यूनिकोड है। मैंने एक क्रुतिदेव (krutidev) फोंट में टाईप किए हुए पीडीएफ लेख को वर्ड-लेख में कन्वर्ट किया, परन्तु उसके अक्षर पढ़े नहीं जा रहे थे। फिर मैंने ऑनलाईन फॉण्ट कन्वर्टर में फाईल को डालकर उसके क्रुतिदेव फोंट को यूनिकोड में कन्वर्ट किया। फिर जाकर अक्षर पढ़े गए। १-२ प्रकार के ही अक्षर गलत थे, वो भी कहीं-२ पर ही। थोड़ी सी मेहनत से लेख मैंने करेक्ट कर दिया। वह मेहनत ओसीआर में लगने वाली मेहनत से काफी कम थी। फिर भी ओसीआर दुबारा टाईप करने से बहुत ज्यादा आसान है।

भविष्य की तकनीक ‘हैण्ड टैक्स्ट रिकोग्निशन’

इससे आगे की तकनीक हाथ से लिखे लेख को ओसीआर करने की है। इसे ‘हैण्ड टैक्स्ट रिकोग्निशन’ कहते हैं। परन्तु यह पूरा विकसित नहीं हुआ है। इस पर खोज जारी है। हालांकि डब्बों वाले कागजी फोर्मेट में एक-२ डब्बे में एक-२ अक्षर को डालने से यह तकनीक काम कर जाती है। तभी तो सेवा-भरती या पंजीकरण आदि के अधिकाँश परिचय-फॉर्म भरने के लिए डब्बों वाले फोर्मेट का प्रयोग किया जाता है।

यदि आपने इस लेख/पोस्ट को पसंद किया तो कृपया “लाईक” बटन को क्लिक करें, इसे शेयर करें, इस वार्तालाप/ब्लॉग को अनुसृत/फॉलो करें, व साथ में अपना विद्युतसंवाद पता/ई-मेल एड्रेस भी दर्ज करें, ताकि इस ब्लॉग के सभी नए लेख एकदम से सीधे आपतक पहुंच सकें। कमेन्ट सैक्शन में अपनी राय जाहिर करना न भूलें।

Please click on this link to view this post in English (OCR, Optical Recognition System, a boon for modern publishing)