আমার ডেভেলপকৃত বিজয়-টু-ইউনিকোড কনভার্টার নিয়ে কিছু কথা

সর্বশেষ আপডেট:

মাসখানেক হলো আমি একটি “বিজয় টু ইউনিকোড কনভার্টার” ডেভেলপ করেছি। বিজয়ে লিখিত অর্থাৎ এনসি এনকোডেড (ANSI Encoded) কোনো বাংলা টেক্সট’কে ইউনিকোডে রূপান্তরের জন্যে এটি তৈরি করা হয়েছে। এছাড়া আরো কী কী কাজে এটি ব্যবহার করা যাবে, কীভাবে ব্যবহার করতে হবে, এর সুবিধা-অসুবিধা ইত্যাদি বিষয়গুলো এখানে তুলে ধরা হলো।

বিজয় টু ইউনিকোড কনভার্টার-এর ব্যবহার:

এই কনভার্টারটি দিয়ে নিচের কাজগুলো করা যাবে।

  1. শুধু এনসি এনকোডিং (ANSI Encoding)-এ লিখিত, অর্থাৎ বিজয়ে লিখিত কোনো বাংলা টেক্সট’কে, ইউনিকোড (Unicode) এনকোডেড বাংলা টেক্সট-এ রূপান্তর করা।
  2. এনসি ও ইউনিকোড – দু’ধরনেরই বাংলা টেক্সট রয়েছে, তাকে ইউনিকোডে রূপান্তর করা।
  3. বাংলা ইউনিকোড পলিশার হিসেবে। পলিশারের কাজগুলো নিচে বর্ণিত হয়েছে।
  4. ইংরেজি ডিজিট ও সংখ্যাকে বাংলায় রূপান্তর করা।

যেসব সমস্যা রয়েছে:

কনভার্টারটি ডেভেলপ করার সময় কিছু সমস্যা রয়ে গিয়েছে।

  1. এনসি হোক, কিংবা ইনিকোড – ইংরেজি টেক্সট থাকলে তা পরিবর্তিত হয়ে যাবে। পরে তা ম্যানুয়ালি (Manually) ঠিক করতে হবে।
  2. সবচে’ মারাত্মক হলো, ডলার চিহ্ন টাকা চিহ্নে পরিবর্তিত হয়ে যাবে। যেমন, $500 পরিবর্তিত হয়ে ৳৫০০ হয়ে যাবে। এছাড়া সচরাচর ব্যবহৃত আরো অনেক চিহ্ন পরিবর্তিত হয়ে যাবে। পরিবর্তিত এ চিহ্নগুলো পরে ম্যানুয়ালি ঠিক করতে হবে। যেমন:
বুলেট (•)ক্স
Ampersand (&)হসন্ত (্)
কপিরাইট (©)রেফ (র্)
রেজিস্টার্ড (®)
ট্রেডমার্ক (™)
যোগ-বিয়োগ (±)ক্ট
গুণ (×)দ্ধ
ভাগ (÷)স্ট

এই কনভার্টারের ক্ষেত্রে আরো কিছু লক্ষ্যণীয় বিষয়:

হসন্তযুক্ত ও হসন্ত দৃশ্যমান, এরূপ এনসি এনকোডেড বাংলা শব্দের ক্ষেত্রে হসন্ত আকারেই কনভার্ট হবে। কোনো যুক্তবর্ণ তৈরি হবে না। যেমন: পঙ্‌ক্তি, আহ্‌বান ইত্যাদি।

বাংলা ইউনিকোড পলিশারের কাজ:

কনভার্টারটিকে বাংলা ইউনিকোড পলিশার হিসেবেও ব্যবহার করা যায়। “ইউনিকোড পলিশার” বলতে এটি নিচের কাজগুলো করবে।

  1. ও-কার ও ঔ-কার ঠিক করা। এ-কারের পর আ-কার থাকলে, দু’টো মিলে ও-কার হয়ে যাবে। একইভাবে এ-কারের পর ঔ-কারের শেষের অংশ (ৗ) থাকলে, দু’টো মিলে ঔ-কার হয়ে যাবে।
  2. নুক্তা/বিন্দু দিয়ে লিখিত বর্ণ নুক্তাবিহীন বর্ণে পরিণত হবে। যেমন:
    ড + ় => ড়, ঢ + ় => ঢ়, য + ় => য় ইত্যাদিতে পরিণত হবে।
  3. বিসর্গের অব্যবহিত (Immediate) আগে এক বা একধিক স্পেস থাকলে তা মুছে যাবে। তবে ট্যাব থাকলে তা মুছবে না।
  4. পরপর একাধিক স্পেস থাকলে, একটিমাত্র স্পেসে পরিণত হবে।
  5. পরপর একাধিক হসন্ত থাকলে, একটিমাত্র হসন্তে পরিণত হবে।
  6. ইউনিকোডে হসন্তযুক্ত শব্দ তৈরি করতে Zero-width non-joiner (ZWNJ \u200c) ক্যারেক্টারটি ব্যবহৃত হয়। তবে শব্দের শেষে হসন্ত থাকলে ZWNJ-এর প্রয়োজন নেই। সেক্ষেত্রে কোনো শব্দের শেষে ZWNJ থাকলে তা মুছে যাবে।

আমার ডেভেলপকৃত বিজয়-টু-ইউনিকোড কনভার্টার নিয়ে কিছু কথা” বিষয়ে ২টি মন্তব্য

ইকবাল কবির শীর্ষক প্রকাশনায় মন্তব্য করুন জবাব বাতিল

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।