ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान

कुण्डलिनी और लेखन कला एक-दूसरे से जुड़े हुए हैं

पाठक सोचते होंगे कि कुण्डलिनी-वैबसाईट में स्वयंप्रकाशन व वेबसाईट-निर्माण के विषय किस उद्देश्य से डाले गए हैं। वास्तव में कुण्डलिनी-साधक को स्वयंप्रकाशन का व वेबसाईट-निर्माण का भी व्यावहारिक अनुभव होना चाहिए। ऐसा इसलिए है, क्योंकि कुण्डलिनी-क्रियाशीलता या कुण्डलिनी-जागरण के बाद दिमाग में मननशीलता की बाढ़ जैसी आ जाती है। उस स्थिति में व्यक्ति एक उत्कृष्ट पुस्तक व वेबसाईट का निर्माण कर सकता है। साथ में, इससे वह खालीपन की नकारात्मकता से भी बच सकता है। प्रेमयोगी वज्र के साथ भी ऐसा ही हुआ।

मैं ओसीआर तकनीक तक कैसे पहुंचा

ओसीआर (ocr) तकनीक से मेरा सामना तब हुआ, जब मैं अपने पिता द्वारा लिखित लगभग सात साल पुरानी एक कागजी पुस्तक का ई-पुस्तक वाला रूप बनाने का प्रयत्न कर रहा था। पुस्तक का नाम था ‘सोलन की सर्वहित साधना’। सौभाग्य से उस पुस्तक की सॉफ्ट कोपी प्रकाशक के पास मिल गई। इससे मैं पुस्तक को स्कैन करने से बच गया। साथ में, संभवतः सॉफ्ट कोपी से बनाई गई ई-पुस्तक में कम अशुद्धियाँ होती हैं। वह पुस्तक पीडीएफ फोर्मेट में थी। पहले तो मैं ऑनलाईन पीडीएफ कन्वर्टर की सहायता लेने लगा। मैंने कई प्रकार के कन्वर्टर को ट्राय करके देखा, गूगल ड्राईवर के कन्वर्टर को भी। परन्तु सभी में जो वर्ड फाईल कन्वर्ट होकर आ रही थी, उसके अक्षर तो पूर्णतया दोषपूर्ण थे। वह हिंदी पुस्तक तो कोई चाइनीज पुस्तक लग रही थी। फिर पीडीएफ एलीमेंट का प्रयोग किया। उसमें मुफ्त के प्लान में कुछ ही पेज एक्सट्रेक्ट करने की छूट थी। पेज तो पीडीएफ फाईल से वर्ड फाईल को एक्सट्रेक्ट हो गए थे, पर उन पृष्ठों में पट्टियों, फूलों आदि से सजावट जस की तस बनी हुई थी। वे सजावट की चीजें मुझसे रिमूव नहीं हो रही थीं। कुछ हो भी रही थीं, पर सभी नहीं। अक्षरों की गुणवत्ता भी अधिक अच्छी नहीं थी। मैंने सोचा कि शायद खरीदे जाने वाले प्लान से कोई बात बन जाए। परन्तु जब उसकी कीमत देखी, तो मैं एकदम पीछे हट गया। क्योंकि उसकी न्यूनतम सालाना कीमत लगभग 3000-4000 रुपए की थी।

मुफ्त में उपलब्ध ऑनलाईन फाईल कन्वर्टर से मुझे बहुत सहायता मिली

कई महीनों तक मेरी योजना ठन्डे बस्ते में पड़ी रही। फिर जब मुझे कुछ खाली समय प्राप्त हुआ, तब मैंने गूगल पर सर्च किया। ओसीआर तो मैंने पहले भी पढ़ रखा था, पर मुझे कभी भी पूरी तरह से समझ नहीं आया था। फिर मुझे एक वेबपोस्ट में पता चला कि उसके लिए पुस्तक को स्कैन करना पड़ता है, ताकि पुस्तक का प्रत्येक पृष्ठ एक अलग चित्र के रूप में आ जाए। जैसे ही मैं पुस्तक के स्कैन की तैयारी कर रहा था, वैसे ही मुझे पता चला कि यदि पुस्तक पीडीएफ फाईल के रूप में उपलब्ध हो, तो उसे सीधे ही चित्र-फाईल के रूप में कन्वर्ट किया जा सकता है। मैंने गूगल पर ‘पीडीएफ इमेज एक्सट्रेक्शन’ से सर्च करके बहुत से ऑनलाईन कन्वर्टर ट्राय किए। उनमें मुझे स्मालपीडीएफडॉटकोम पर उपलब्ध कन्वर्टर सर्वोत्तम लगा। मैंने उसमें एक ही बार में सारी बुक-फाईल अपलोड कर दी। कनवर्शन के बाद सारी बुक-फाईल डाऊनलोड कर दी। उससे कम्प्यूटर के डाऊनलोड फोल्डर में सारी बुक-फाईल क्रमवार चित्रों के रूप में आ गई। सभी चित्र एक जिपड (कंप्रेस्ड) फोल्डर में थे। उस फोल्डर को अन्जिप (विनजिप आदि सोफ्टवेयर से) करने से सभी चित्र एक साधारण फोल्डर में आ गए।

हिंदी भाषा के लिए काम करने वाले कम ही ओसीआर उपलब्ध हैं

फिर मैं उन चित्रों को वर्ड डोक में कनवर्ट करने वाले सोफ्टवेयर (ओसीआर) को गूगल में खोजने लगा। बहुत से ओसीआर ऐसे थे, जो हिंदी भाषा की सुविधा नहीं देते थे। अंत में मुझे वैबसाईट http://www.i2ocr.com पर उपलब्ध ऑनलाईन ओसीआर सर्वोत्तम लगा। वह निःशुल्क था। मैं बुक-चित्रों वाला फोल्डर एकसाथ अपलोड करने की कोशिश कर रहा था, पर नहीं हुआ। फिर मैंने सभी चित्रों को सेलेक्ट करके, सभी को एकसाथ अपलोड करने का प्रयास किया। पर वह भी नहीं हुआ। फिर मुझे एक वेबपोस्ट में पता चला कि बैच एक्सट्रेक्शन वाले ओसीआर कमर्शियल होते हैं, व मुफ्त में उपलब्ध नहीं होते। अतः मुझे एक-२ करके चित्रों को कन्वर्ट करना पड़ा। चित्रों की तरह ही कन्वर्ट हुई डोक फाईलें भी क्रमवार रूप में डाऊनलोड फोल्डर में आ गईं।

इमेज एक्सट्रेक्शन से बनाई गई वर्ड-फाईल की फोर्मेटिंग

फिर मैंने क्रम के अनुसार सभी डोक फाईलों को एक अकेली डोक फाईल में कोपी-पेस्ट कर दिया। पर डोक फाईल में अक्षरों की छोटी-बड़ी लाईनें थीं, जो जस्टिफाई एलाईनमेंट में भी ठीक नहीं हो रही थीं। फिर मैंने एक वैबपोस्ट में पढ़ा कि एमएस वर्ड के फाईन्ड-रिप्लेस के फाईन्ड सेक्शन में ^p (^ चिन्ह कीबोर्ड की शिफ्ट व 6 नंबर वाली की को एकसाथ दबाने से छपता है) को टाईप करें, व रिप्लेस में खाली सिंगल स्पेस डालें। ‘रिप्लेस आल’ की कमांड से सब ठीक हो जाता है। वैसा ही हुआ। इस तरह से वह ई-पुस्तक तैयार हुई।

यह ध्यान दिया जाना चाहिए कि यदि बहुत सारी छोटी वर्ड फ़ाइलों को एक साथ जोड़ा जाना है, तो एमएस वर्ड के ‘इंसर्ट’ की मदद ली जानी चाहिए। ‘इंसर्ट’ बटन पर क्लिक करने पर बने ‘ऑब्जेक्ट’ बटन पर क्लिक करें, और इसके कोने पर बने त्रिकोण पर क्लिक करें। अब ड्रॉपडाउन मेनू पर ‘फ़ाइल फ्रॉम टेक्स्ट’ पर क्लिक करें। एक नया ब्राउज़-विंडो पॉप अप होगा। उस पर वर्ड फ़ाइलों का चयन करें, जिन्हें क्लब किया जाना है। ध्यान रखें कि चयन के क्रम में फ़ाइलों को क्लब किया जाएगा। इसका मतलब है, चयनित समूह में पहली फ़ाइल संयुक्त वर्ड फ़ाइल में पहले आएगी और इसी तरह। मैं एक बार में अधिकतम 10 फ़ाइलों को क्लब करने की सलाह देता हूं क्योंकि मुझे लगता है कि यदि बड़ी संख्या में फ़ाइलों को एक साथ चुना जाता है तो यह सिस्टम त्रुटि पैदा कर सकता है। पर वास्तव में कन्वर्ट होने के बाद कई फाईलें वर्ड फोर्मेट में डाऊनलोड नहीं हो रही थीं। मैं हिंदी भाषा की फाईल को ओसीआर कर रहा था। टेक्स्ट फोर्मेट में वे फाईलें डाऊनलोड हो रही थीं। हालांकि टेक्स्ट फोर्मेट वाली फाईल नोटपैड में ही खुल रही थीं, वर्डनोट में नहीं। टेक्स्ट फाईलों में डाऊनलोड करने का यह नुक्सान है कि उन्हें वर्ड फाईलों की तरह इन्सर्ट-ओब्जेक्ट आदि कमांड देकर एकसाथ क्लब नहीं किया जा सकता। सबको अलग-२ कोपी-पेस्ट करना पड़ता है।

फाईनल फाईल करेक्शन

उस पुस्तक में कई जगह दो अक्षर जुड़े हुए थे। जैसे कि मूल पुस्तक के ‘फल का’ शब्दों का ‘फलका’ बन गया था। थोड़ी सी मेनुअल करेक्शन से सब ठीक हो गया। कागजी पुस्तक को सामने रखकर उपयुक्त स्थानों पर पेजब्रेक, लाइनब्रेक, हैडिंग शेप आदि दिए गए, ताकि ई-पुस्तक पूर्णतः मूल पुस्तक की तरह लगती। कवर के व शुरू के कुछ चित्रात्मक पृष्ठों को सीधे ही ई-पुस्तक में इन्सर्ट किया गया। इन कवर फ़ोटो के संपादन के लिए मैंने ‘फोटोजेट’ के ऑनलाइन फोटो संपादक का उपयोग किया। हालाँकि, संपादित छवि डाउनलोड करने से पहले इस ऐप को फेस बुक पर साझा करना पड़ता है। Pixlr.com का ऑनलाइन संपादक भी अच्छा है। चित्रों को सीधे कोपी-पेस्ट करने की बजाय एमएस वर्ड की ‘इन्सर्ट-पिक्चर’ की सहायता ली गई, क्योंकि सीधे कोपी-पेस्ट करने से कई बार ई-बुक में चित्र दिखता ही नहीं।

ओसीआर में कुछ विशेष ध्यान देने योग्य बातें

पुस्तक को स्केन करने से पहले यह देख लें की पुस्तक कितनी पुरानी है। बहुत पुरानी पुस्तकों का ओसीआर नहीं हो पाता। पुस्तक की बाईंडिंग खोलकर प्रत्येक पेज को अलग से सकेन करना पडेगा। पुस्तक को फोल्ड करके स्केन करने से किनारे के अक्षर ढंग से स्कैन नहीं होते, जिससे वे ओसीआर नहीं हो पाते। बाद में आप पुस्तक की पुनः बाईन्डिंग करवा सकते हो। डबल पेज स्कैन करके भी ओसीआर नहीं हो पाता। पेज उसी हिसाब से स्कैनर पर रखना पड़ेगा, जैसा कि आमतौर पर सिंगल पेज रखा जाता है। पेज की लम्बाई स्कैनर की लम्बाई की दिशा में रखी जाती है। पेज सामान्य पुस्तक के पेज की तरह लिखा होना चाहिए, यानी अक्षरों की पंक्तियाँ पेज की चौड़ाई की दिशा में कवर करती हों। स्कैनर पर पेज जितना सीधा होगा, उतना ही अच्छा ओसीआर होगा। इसलिए पेज को स्कैनर-ग्लास की लम्बाई वाली बैक साईड प्लास्टिक बाउंडरी से सटा कर रखा जाना चाहिए। इससे पेज खुद ही सीधा आ जाता है। लैन्थवाईज तो पेज स्कैनर के बीच में आना चाहिए।

फाईल को सुधारने के लिए ओसीआर करने से पहले आसान विकल्प भी आजमा लें

कई बार तो ओसीआर करने की जरूरत ही नहीं पड़ती, क्योंकि फोंट को कन्वर्ट करके काम चल पड़ता है। हर जगह चलने वाला फोंट यूनिकोड है। मैंने एक क्रुतिदेव (krutidev) फोंट में टाईप किए हुए पीडीएफ लेख को वर्ड-लेख में कन्वर्ट किया, परन्तु उसके अक्षर पढ़े नहीं जा रहे थे। फिर मैंने ऑनलाईन फॉण्ट कन्वर्टर में फाईल को डालकर उसके क्रुतिदेव फोंट को यूनिकोड में कन्वर्ट किया। फिर जाकर अक्षर पढ़े गए। १-२ प्रकार के ही अक्षर गलत थे, वो भी कहीं-२ पर ही। थोड़ी सी मेहनत से लेख मैंने करेक्ट कर दिया। वह मेहनत ओसीआर में लगने वाली मेहनत से काफी कम थी। फिर भी ओसीआर दुबारा टाईप करने से बहुत ज्यादा आसान है।

भविष्य की तकनीक ‘हैण्ड टैक्स्ट रिकोग्निशन’

इससे आगे की तकनीक हाथ से लिखे लेख को ओसीआर करने की है। इसे ‘हैण्ड टैक्स्ट रिकोग्निशन’ कहते हैं। परन्तु यह पूरा विकसित नहीं हुआ है। इस पर खोज जारी है। हालांकि डब्बों वाले कागजी फोर्मेट में एक-२ डब्बे में एक-२ अक्षर को डालने से यह तकनीक काम कर जाती है। तभी तो सेवा-भरती या पंजीकरण आदि के अधिकाँश परिचय-फॉर्म भरने के लिए डब्बों वाले फोर्मेट का प्रयोग किया जाता है।

यदि आपने इस लेख/पोस्ट को पसंद किया तो कृपया “लाईक” बटन को क्लिक करें, इसे शेयर करें, इस वार्तालाप/ब्लॉग को अनुसृत/फॉलो करें, व साथ में अपना विद्युतसंवाद पता/ई-मेल एड्रेस भी दर्ज करें, ताकि इस ब्लॉग के सभी नए लेख एकदम से सीधे आपतक पहुंच सकें। कमेन्ट सैक्शन में अपनी राय जाहिर करना न भूलें।

Please click on this link to view this post in English (OCR, Optical Recognition System, a boon for modern publishing)

ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान

कुण्डलिनी और लेखन कला एक-दूसरे से जुड़े हुए हैं

मैं ओसीआर तकनीक तक कैसे पहुंचा

मुफ्त में उपलब्ध ऑनलाईन फाईल कन्वर्टर से मुझे बहुत सहायता मिली

हिंदी भाषा के लिए काम करने वाले कम ही ओसीआर उपलब्ध हैं

इमेज एक्सट्रेक्शन से बनाई गई वर्ड-फाईल की फोर्मेटिंग

फाईनल फाईल करेक्शन

ओसीआर में कुछ विशेष ध्यान देने योग्य बातें

फाईल को सुधारने के लिए ओसीआर करने से पहले आसान विकल्प भी आजमा लें

भविष्य की तकनीक ‘हैण्ड टैक्स्ट रिकोग्निशन’

Published by

demystifyingkundalini by Premyogi vajra- प्रेमयोगी वज्र-कृत कुण्डलिनी-रहस्योद्घाटन

One thought on “ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान”

Leave a comment Cancel reply

कुण्डलिनी और लेखन कला एक-दूसरे से जुड़े हुए हैं

मैं ओसीआर तकनीक तक कैसे पहुंचा

मुफ्त में उपलब्ध ऑनलाईन फाईल कन्वर्टर से मुझे बहुत सहायता मिली

हिंदी भाषा के लिए काम करने वाले कम ही ओसीआर उपलब्ध हैं

इमेज एक्सट्रेक्शन से बनाई गई वर्ड-फाईल की फोर्मेटिंग

फाईनल फाईल करेक्शन

ओसीआर में कुछ विशेष ध्यान देने योग्य बातें

फाईल को सुधारने के लिए ओसीआर करने से पहले आसान विकल्प भी आजमा लें

भविष्य की तकनीक ‘हैण्ड टैक्स्ट रिकोग्निशन’

Share this:

Related

Published by

demystifyingkundalini by Premyogi vajra- प्रेमयोगी वज्र-कृत कुण्डलिनी-रहस्योद्घाटन

One thought on “ओसीआर, ऑप्टिकल रिकोग्निशन सिस्टम, आधुनिक प्रकाशन के लिए एक वरदान”

Leave a comment Cancel reply