हिंदी में AI का इस्तेमाल क्यों पड़ सकता है महंगा? जानिए ‘लैंग्वेज टैक्स’ की पूरी कहानी

आर्टिफिशियल इंटेलिजेंस (AI) का इस्तेमाल तेजी से बढ़ रहा है और लोग अब अंग्रेजी के साथ-साथ हिंदी समेत कई भाषाओं में भी चैटबॉट्स का उपयोग कर रहे हैं। हालांकि, हालिया रिसर्च में एक ऐसा पहलू सामने आया है जो गैर-अंग्रेजी भाषाओं के यूजर्स के लिए चिंता का विषय बन सकता है। रिसर्च के अनुसार हिंदी, अरबी और चीनी जैसी भाषाओं में AI का उपयोग करने पर अंग्रेजी की तुलना में अधिक टोकन खर्च होते हैं, जिससे उपयोग की लागत बढ़ सकती है।
क्या है इसकी वजह?
AI मॉडल किसी भी टेक्स्ट को समझने के लिए उसे छोटे-छोटे हिस्सों यानी “टोकन” में बांटते हैं। जितने ज्यादा टोकन इस्तेमाल होंगे, उतनी ही प्रोसेसिंग होगी और कई पेड AI सेवाओं में उसी आधार पर शुल्क लिया जाता है।
रिसर्च के मुताबिक, एक ही जानकारी को हिंदी में लिखने पर अंग्रेजी की तुलना में ज्यादा टोकन बनते हैं। यानी समान सवाल पूछने या समान जवाब पाने के लिए हिंदी में AI को अधिक टोकन प्रोसेस करने पड़ते हैं, जिससे लागत बढ़ जाती है।
‘लैंग्वेज टैक्स’ क्या है?
AI रिसर्चर्स और डेवलपर्स इस अतिरिक्त खर्च को “लैंग्वेज टैक्स” कहते हैं। यह ऐसा छिपा हुआ खर्च है जो अलग-अलग भाषाओं को प्रोसेस करने के तरीके के कारण सामने आता है।
हाल ही में OpenAI के रिसर्चर Aran Komatsuzaki ने एक प्रयोग में OpenAI और Anthropic के टोकनाइजर की तुलना की। उन्होंने एक ही लेख का कई भाषाओं में अनुवाद करके देखा कि अलग-अलग AI सिस्टम कितने टोकन बनाते हैं।
रिसर्च में क्या सामने आया?
विश्लेषण में पाया गया कि OpenAI के टोकनाइजर पर हिंदी टेक्स्ट के लिए अंग्रेजी के मुकाबले करीब 1.37 गुना ज्यादा टोकन की जरूरत पड़ी।
वहीं Anthropic के Claude टोकनाइजर में यह अंतर और भी बड़ा रहा। यहां हिंदी के लिए 3.24 गुना, अरबी के लिए 2.86 गुना और चीनी भाषा के लिए 1.71 गुना अधिक टोकन इस्तेमाल हुए।











