Sarvam AI क्या है? जो ग्लोबल दिग्गज Google Gemini और ChatGPT को दे रहा टक्कर

Join Us icon

इन दिनों में दुनियाभर में आर्टिफिशियल इंटेलिजेंस (AI) की खूब चर्चा हो रही है। इसी बीच बेंगलुरु की एक स्टार्टअप कंपनी सर्वम एआई (Sarvam AI) अचानक सुर्खियों में आ गई है। India AI Impact Summit से पहले कंपनी ने अपने दो बड़े मॉडल लॉन्च किए हैं, जिनकी तुलना सीधे Google Gemini और OpenAI के ChatGPT से की जा रही है। खास बात यह है कि Sarvam AI कोई बड़ा जनरल चैटबॉट बनाने की दौड़ में नहीं है, बल्कि यह भारत की जरूरतों को ध्यान में रखकर खास कामों के लिए AI मॉडल तैयार कर रहा है। कंपनी का फोकस भारतीय भाषाओं, मुश्किल दस्तावेजों और सरकारी-एंटरप्राइज इस्तेमाल पर है, जहां ग्लोबल AI मॉडल अक्सर उम्मीद के मुताबिक परफॉर्मेंस नहीं कर पाते हैं। आइए जानते हैं Sarvam AI क्या है? इसका उपयोग कैसे किया जा सकता है और यह चैटजीपीट और गूगल जेमिनी से कैसे अलग है?

Sarvam AI क्या है?

Sarvam AI एक भारतीय AI स्टार्टअप है, जिसकी स्थापना 2023 में प्रत्यूष कुमार और विवेक राघवन ने की थी। कंपनी का लक्ष्य Sovereign AI बनाना है। इसका मतलब है ऐसे AI सिस्टम तैयार करना जो भारत में डिजाइन, ट्रेन और डिप्लॉय किए जाएं और जो भारतीय भाषाओं, डाटा और काम करने के तरीकों के अनुरूप हों। जहां बड़े अंतरराष्ट्रीय मॉडल पूरी दुनिया के लिए एक जैसा सिस्टम बनाने की कोशिश करते हैं, वहीं Sarvam AI इंडिया सेंट्रिक सॉल्यूशन पर काम कर रहा है। कंपनी का मानना है कि भारत जैसे बहुभाषी और विविध देश के लिए खास तरह के AI सिस्टम की जरूरत है।

Sarvam Vision क्या है और क्यों खास है?

Sarvam Vision कंपनी का डॉक्युमेंट इंटेलिजेंस और OCR (Optical Character Recognition) मॉडल है। यह मॉडल स्कैन किए गए डॉक्यूमेंट, टेबल, टेक्स्ट और तकनीकी पेज को समझने में सक्षम है। भारत में कई सरकारी और कानूनी दस्तावेज स्कैन फॉर्मेट में होते हैं, जिनमें अलग-अलग भाषाएं और जटिल लेआउट होते हैं। ऐसे मामलों में सामान्य AI मॉडल अक्सर सही रिजल्ट नहीं दे पाते हैं, लेकिन Sarvam Vision को खासतौर पर इन्हीं चुनौतियों को ध्यान में रखकर तैयार किया गया है। कुछ बेंचमार्क टेस्ट में Sarvam Vision ने काफी अच्छा परफॉर्मेंस कर दिखाया है। रिपोर्ट के अनुसार, इसने कठिन OCR टेस्ट में हाई एक्यूरेसी हासिल की है और कई मामलों में बड़े अंतरराष्ट्रीय मॉडलों से बेहतर रिजल्ट दिए हैं। हालांकि इसका मतलब यह नहीं कि यह Gemini या ChatGPT की जगह ले लेगा, लेकिन यह दिखाता है कि खास कामों के लिए बनाए गए मॉडल बेहतर परफॉर्मेंस कर सकते हैं।

Sarvam AI

Sarvam के लिए यह प्रोडक्ट रोलआउट क्यों अहम है

Sarvam का लक्ष्य सिर्फ एक AI मॉडल बनाना नहीं है, बल्कि एक पूरा फुल-स्टैक AI सिस्टम तैयार करना है, जो भारत जैसे बहुभाषी और विविधतापूर्ण देश की जरूरतों को पूरा कर सके। भारत में 22 से अधिक आधिकारिक भाषाएं और सैकड़ों बोलियां हैं, जिनके लिए ग्लोबल टेक कंपनियों ने अब तक सीमित समाधान ही डेवलप किए हैं। Menlo Ventures के Deedy Das जैसे ग्लोबल निवेशकों ने भी माना है कि Sarvam के स्पीच और OCR सिस्टम भारतीय भाषाओं के लिए अब तक के सबसे मजबूत समाधानों में से हैं। आईटी मंत्री अश्विनी वैष्णव ने भी सार्वजनिक रूप से कहा कि भारत की सॉवरेन मॉडल रणनीति अब परिणाम देने लगी है और आलोचक भी इसकी तकनीकी क्षमता की सराहना कर रहे हैं।

Sarvam AI का उपयोग कैसे करें?

Sarvam AI का उपयोग करना आसान है। इसके लिए नीचे दिए गए स्टेप को फॉलो करना होगाः

  • स्टेप-1: सबसे पहले अपने मोबाइल या कंप्यूटर में गूगल ओपन करें। सर्च बार में Sarvam AI टाइप करें और सर्च बटन दबाएं। आपको सबसे ऊपर Sarvam AI की आधिकारिक वेबसाइट दिखाई देगी।
  • स्टेप-2: सर्च रिजल्ट में दिख रहे पहले लिंक पर क्लिक करें। ध्यान रखें कि आप किसी फर्जी या विज्ञापन लिंक पर न जाएं। आधिकारिक वेबसाइट पर पहुंचने के बाद आपको होमपेज दिखाई देगा, जहां कंपनी के मॉडल और प्रोडक्ट की जानकारी दी गई है।
  • स्टेप-3: वेबसाइट के होमपेज पर Experience Sarvam का बटन दिखाई देगा। इस पर क्लिक करें। यह आपको उस सेक्शन में ले जाएगा जहां से आप Sarvam के टूल्स और मॉडल्स को सीधे आजमा सकते हैं।

Sarvam AI

  • स्टेप-4: Sarvam AI का इस्तेमाल करने के लिए आपको लॉगइन करना जरूरी होगा। अगर आपका पहले से गूगल अकाउंट है, तो इसे से लॉगइन कर सकते हैं। अगर अकाउंट नहीं है तो साइन-अप पर क्लिक करके नया अकाउंट बनाएं। आमतौर पर ईमेल वेरिफिकेशन के बाद आपका अकाउंट एक्टिव हो जाता है।
  • स्टेप-5: लॉगइन करने के बाद आप Sarvam AI के डैशबोर्ड पर पहुंच जाएंगे। यहां आपको अलग-अलग टूल्स, जैसे- डॉक्यूमेंट इंटेलिजेंस, स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच या अन्य AI फीचर्स के विकल्प मिलेंगे।

  • स्टेप-6: अब आप अपनी जरूरत के अनुसार टूल चुन सकते हैं। उदाहरण के लिए, अगर आपको किसी दस्तावेज को समझना है तो डॉक्यूमेंट इंटेलिजेंस विकल्प चुनें। अगर आवाज से टेक्स्ट बनाना है तो स्पीच-टू-टेक्स्ट फीचर इस्तेमाल करें। आप टेक्स्ट डालकर या ऑडियो अपलोड करके तुरंत रिजल्ट देख सकते हैं।
  • स्टेप-7:अगर आप डेवलपर हैं, तो Sarvam AI की वेबसाइट पर API एक्सेस और डॉक्यूमेंटेशन भी उपलब्ध है। इसके जरिए आप अपने ऐप या वेबसाइट में Sarvam के मॉडल इंटीग्रेट कर सकते हैं।

इस तरह कुछ आसान स्टेप्स फॉलो करके आप Sarvam AI को इस्तेमाल करना शुरू कर सकते हैं।

Sarvam AI के फीचर्स

Sarvam Vision: डॉक्यूमेंट को समझने वाला AI मॉडल

Sarvam ने Sarvam Vision नाम से 3 बिलियन पैरामीटर वाला एक विजन-लैंग्वेज मॉडल पेश किया है, जो खास तौर पर डॉक्यूमेंट डिजिटाइजेशन और समझ के लिए बनाया गया है। इसका फोकस भारतीय भाषाओं पर है।


यह कैसे काम करता है

Sarvam Vision सिर्फ टेक्स्ट पढ़ने वाला मॉडल नहीं है। इसमें एक सॉवरेन विजन-लैंग्वेज मॉडल के साथ दो अतिरिक्त सिस्टम जुड़े हैं – एक सेमांटिक लेआउट पार्सर और एक रीडिंग ऑर्डर नेटवर्क। यह मॉडल सिंथेटिक और वास्तविक दस्तावेजों के मिश्रण पर प्रशिक्षित किया गया है, जिनमें सरकारी डॉक्यूमेंट, बैंक रिकॉर्ड, अखबार, किताबें और ऐतिहासिक पांडुलिपियां शामिल हैं। प्रशिक्षण में अंग्रेजी और 22 भारतीय भाषाओं को शामिल किया गया है।

यह मॉडल डॉक्यूमेंट इंटेलिजेंस को सिर्फ टेक्स्ट निकालने का काम नहीं मानता है, बल्कि इसे नॉलेज निकालने की प्रक्रिया के रूप में देखता है। यह टेबल, चार्ट और मुश्किल लेआउट को भी समझ सकता है। Sarvam ने Sarvam Indic OCR Bench नाम का एक बेंचमार्क डेटासेट भी जारी किया है, जो 22 भारतीय भाषाओं को कवर करता है। कंपनी का दावा है कि भारतीय भाषाओं में वर्ड एक्युरेसी के मामले में यह मॉडल Google Gemini 3 Pro और Anthropic Claude Opus 4.5 जैसे ग्लोबल मॉडलों से बेहतर परफॉर्मेंस करता है।

Sarvam Audio: भारतीय भाषाओं के लिए एडवांस स्पीच रिकॉग्निशन

Sarvam Audio ऑडियो लैंग्वेज मॉडल है, जो भारतीय भाषाओं में स्पीच रिकॉग्निशन के लिए तैयार किया गया है। कंपनी का दावा है कि यह कई बेंचमार्क पर Gemini-3 और GPT-4o Transcribe से बेहतर है।

यह कैसे काम करता है

यह मॉडल स्पीच को सिर्फ ऑडियो-टू-टेक्स्ट टास्क की तरह नहीं देखता है, बल्कि इसे एक संदर्भ संकेत के रूप में समझता है। इससे यह लंबी बातचीत, कई वक्ताओं की आवाज, ओवरलैपिंग स्पीच और शोर वाले माहौल में भी बेहतर काम करता है। यह कोड-मिक्स्ड ट्रांसक्रिप्शन को भी सपोर्ट करता है यानी जब लोग एक ही वाक्य में हिंदी और अंग्रेजी या अन्य भाषाएं मिलाकर बोलते हैं। बता दें कि Sarvam Audio सीधे ऑडियो से इंटेंट और कमांड निकाल सकता है, जिससे अलग से ट्रांसक्रिप्शन और फिर इंटरप्रिटेशन की जरूरत नहीं पड़ती है। इससे लेटेंसी कम होती है और वॉयस एजेंट बनाना आसान हो जाता है।

Sarvam Dub: लाइव AI डबिंग

Sarvam ने दावा किया कि उसने केंद्रीय बजट भाषण की लाइव AI डबिंग कई भारतीय भाषाओं में की, वह भी दो मिनट से कम लेटेंसी के साथ। यह पहली बार था जब राष्ट्रीय बजट को लाइव AI से डब किया गया।

यह कैसे काम करता है

यह डबिंग फीचर Sarvam Dub नामक AI मॉडल पर आधारित है। यह मॉडल भाषण को एक भाषा से दूसरी भाषा में अनुवाद करता है, लेकिन मूल वक्ता की आवाज की विशेषताओं को बनाए रखता है। मॉडल इस बात पर खास ध्यान देता है कि अनुवाद के बाद भी वक्ता की टोन, बोलने की लय (कैडेंस) और आवाज की पहचान बनी रहे। इससे दर्शक अपनी पसंदीदा भाषा में भाषण सुन सकते हैं, बिना मूल वक्ता की परिचित आवाज खोए।

लाइव डबिंग में सबसे बड़ी चुनौती यह होती है कि जब स्रोत टेक्स्ट पहले से उपलब्ध न हो, तब लेटेंसी को कम कैसे रखा जाए। इसे हल करने के लिए Sarvam ने अपने मॉडल और सर्विंग पाइपलाइन को ऑप्टिमाइज किया और बेस सिस्टम की तुलना में 6.6 गुना कम लेटेंसी हासिल करने का दावा किया। Sarvam का कहना है कि स्पीकर सिमिलैरिटी मेट्रिक में यह मॉडल ElevenLabs और Cartesia जैसे ग्लोबल प्रतिस्पर्धियों से बेहतर साबित हुआ है। कंपनी ने यह भी बताया कि यह सिस्टम बड़े पैमाने पर पहले से इस्तेमाल हो रहा है, जैसे- प्रधानमंत्री के मन की बात कार्यक्रम को हर महीने 11 भारतीय भाषाओं में डब करने के लिए किया जाता है। स्टार्टअप ने IIT मद्रास के साथ मिलकर एजुकेशनल कंटेंट की डबिंग का प्रदर्शन भी किया है।

Bulbul V3: नेचुरल और प्रोडक्शन-रेडी भारतीय आवाजों के लिए

Sarvam ने अपने टेक्स्ट-टू-स्पीच मॉडल का नया संस्करण Bulbul V3 लॉन्च किया। इसका उद्देश्य भारतीय भाषाओं में नेचुरल और प्रोडक्शन-लेवल की आवाजें उपलब्ध कराना है।

यह कैसे काम करता है

Bulbul V3 एक लैंग्वेज मॉडल की मदद से टेक्स्ट का विश्लेषण करता है और उसमें मौजूद टोन, ठहराव (पॉज), जोर (एम्फेसिस) और बोलने की गति (पेसिंग) जैसे तत्वों का अनुमान लगाता है। इससे तैयार की गई आवाज ज्यादा नेचुरल और अभिव्यक्तिपूर्ण लगती है, चाहे वह लंबा कंटेंट हो या बातचीत आधारित उपयोग। वहीं यह वॉयस क्लोनिंग को भी सपोर्ट करता है, जिससे टीमें अपनी कस्टम आवाजें बना सकती हैं और उनमें नेचुरल अभिव्यक्ति और क्वालिटी बनाए रख सकती हैं।

इस मॉडल में 11 भाषाओं में 35 से अधिक आवाजें उपलब्ध हैं, जिन्हें पेशेवर वॉयस आर्टिस्ट से तैयार किया गया है। यह कोड-स्विचिंग, क्षेत्रीय उच्चारण, संख्याएं और नाम जैसे भारतीय भाषण की सामान्य चुनौतियों को संभालने के लिए डिजाइन किया गया है। जल्द ही इसे 22 भारतीय भाषाओं तक विस्तार किया जाएगा। Sarvam के अनुसार, Bulbul V3 का मूल्यांकन 11 भाषाओं में एक स्वतंत्र थर्ड-पार्टी ब्लाइंड लिसनिंग स्टडी में किया गया, जहां इसमें कम त्रुटि दर मिली। स्टार्टअप का दावा है कि इस मॉडल ने ElevenLabs के V3 Alpha और Cartesia के Sonic-3 जैसे ग्लोबल मॉडलों से बेहतर प्रदर्शन किया। साथ ही, Sarvam इस महीने डेवलपर्स को अनलिमिटेड API एक्सेस भी दे रहा है।

Samvaad: चैट एजेंट प्लेटफॉर्म

Sarvam ने बताया कि उसका संवाद एजेंट प्लेटफॉर्म Samvaad अब रोजाना 10 लाख मिनट से अधिक की बातचीत संभाल रहा है।

यह कैसे काम करता है

Samvaad फोन कॉल और व्हाट्सऐप जैसे चैनलों पर AI-संचालित बातचीत को सक्षम बनाता है। इसका उपयोग कस्टमर सपोर्ट, ऑनबोर्डिंग, बिक्री और बड़े पैमाने पर सार्वजनिक अभियानों के लिए किया जाता है। ये एजेंट लगातार काम कर सकते हैं और जरूरत पड़ने पर इंसानी सहायता के साथ हाइब्रिड वर्कफ्लो में भी तैनात किए जा सकते हैं।

Sarvam के अनुसार, कुछ एजेंट अपने उपयोग से मिलने वाले फीडबैक डाटा के जरिए खुद को और बेहतर बनाते हैं। इससे एक तेज रिइनफोर्समेंट लूप बनता है, जो समय के साथ एजेंट को तेजी से स्केल करने में मदद करता है। कंपनी ऐसे सफल डिप्लॉयमेंट को रॉकेटशिप एजेंट कहती है।

सॉवरेन AI: इंफ्रास्ट्रक्चर के लिए राज्यों से साझेदारी

Sarvam ने ओडिशा और तमिलनाडु सरकारों के साथ सॉवरेन AI इंफ्रास्ट्रक्चर बनाने के लिए रणनीतिक साझेदारी की घोषणा की।

यह कैसे काम करता है

ओडिशा में 50 मेगावाट का AI-ऑप्टिमाइज्ड कंप्यूट सेंटर बनाया जाएगा, जो ई-गवर्नेंस, हेल्थकेयर, कृषि सलाह और डिजास्टर मैनेजमेंट जैसी सेवाओं को सपोर्ट करेगा। वहीं, तमिलनाडु में Digital Sangam नामक सॉवरेन AI रिसर्च पार्क IIT मद्रास के साथ विकसित किया जाएगा। इसमें 20 मेगावाट का AI डेटा सेंटर होगा।

ये पहल सिर्फ पायलट प्रोजेक्ट नहीं हैं, बल्कि राज्य-स्तरीय व्यापक AI तैनाती का हिस्सा हैं। Sarvam इसे दीर्घकालिक संस्थागत क्षमता निर्माण के रूप में देखता है।

Sarvam AI बनाम Gemini और ChatGPT

Gemini और ChatGPT बड़े और मल्टी-पर्पज AI मॉडल हैं। ये कोडिंग, राइटिंग, रिसर्च और बातचीत जैसे कई काम कर सकते हैं। Sarvam AI का दृष्टिकोण अलग है। यह हर काम करने की कोशिश नहीं करता है, बल्कि कुछ खास क्षेत्रों में गहराई से काम करता है। यही कारण है कि डॉक्युमेंट समझने और भारतीय भाषाओं में स्पीच जेनरेशन जैसे कामों में इसका परफॉर्मेंस मजबूत बताया जा रहा है। यह एक महत्वपूर्ण संदेश देता है कि AI में केवल आकार और डाटा की मात्रा ही सब कुछ नहीं होती है। सही दिशा और स्पष्ट उद्देश्य भी उतने ही जरूरी हैं।

Sarvam AI की कीमत और प्लान

Sarvam AI ने अपनी सेवाओं की कीमत भारतीय रुपये में रखी है, जिससे यह भारतीय स्टार्टअप्स और डेवलपर्स के लिए किफायती बनता है। हर नए अकाउंट को शुरुआती मुफ्त क्रेडिट दिए जाते हैं। Speech-to-Text, Translation, Language Identification और Text-to-Speech जैसी सेवाओं के लिए अलग-अलग दरें तय की गई हैं। कंपनी ने Starter, Pro और Business जैसे प्रीपेड प्लान भी पेश किए हैं, जिनमें ज्यादा उपयोग की सुविधा और सपोर्ट मिलता है। यह मॉडल खास तौर पर उन कंपनियों के लिए फायदेमंद हो सकता है, जो भारतीय भाषाओं में डिजिटल सेवाएं देना चाहती हैं। Sarvam-M Chat LLM और Document Intelligence (Sarvam Vision) जैसी कोर सेवाएं फरवरी 2026 तक मुफ्त एक्सेस के साथ उपलब्ध हैं।

कोर सेवाओं की दरें इस प्रकार हैं

  • Speech-to-Text की कीमत ₹30 प्रति घंटा है, जिसमें प्रति सेकंड बिलिंग होती है। यदि Diarization या Translation + Diarization जोड़ा जाए, तो ₹45 प्रति घंटा।
  • Translation (Sarvam V1/Mayura V1) और Transliteration की दर ₹20 प्रति 10,000 कैरेक्टर है।
  • Language ID की कीमत ₹3.50 प्रति 10,000 कैरेक्टर है।
  • TTS Bulbul V3 Beta ₹30 प्रति 10,000 कैरेक्टर पर उपलब्ध है, जबकि Bulbul V2 ₹15 प्रति 10,000 कैरेक्टर।

पे-एज-यू-गो मॉडल में कोई न्यूनतम खर्च अनिवार्य नहीं है और शुरुआती 2026 तक दरें स्थिर रखी गई हैं।

सब्सक्रिप्शन टियर

Sarvam AI ने प्रीपेड प्लान भी पेश किए हैं, जिनमें बोनस क्रेडिट, ज्यादा रेट लिमिट (RPM) और सपोर्ट शामिल है।

  • Starter प्लान पे-एज-यू-गो आधारित है, इसमें कोई न्यूनतम सीमा नहीं है और 60 RPM के साथ कम्युनिटी सपोर्ट मिलता है। यह टेस्टिंग के लिए उपयुक्त है।
  • Pro प्लान ₹10,000 प्रीपेड पर उपलब्ध है, जिसमें ₹1,000 बोनस जोड़कर कुल 11,000 क्रेडिट मिलते हैं। इसमें 200 RPM और ईमेल सपोर्ट मिलता है, जो स्टार्टअप्स और POC प्रोजेक्ट्स के लिए उपयोगी है।
  • Business प्लान, जो सबसे लोकप्रिय बताया गया है, ₹50,000 प्रीपेड पर मिलता है। इसमें ₹7,500 बोनस के साथ कुल 57,500 क्रेडिट, 1,000 RPM, Slack सपोर्ट और एक समर्पित इंजीनियर की सहायता मिलती है।

यह पूरी संरचना Sarvam AI को ग्लोबल API प्लेटफॉर्म के मुकाबले लागत के मामले में प्रतिस्पर्धी बनाती है, खासकर भारतीय भाषाओं और स्पीच सेवाओं के संदर्भ में।

भारत के लिए क्यों महत्वपूर्ण है Sarvam AI?

भारत में डिजिटल सेवाओं का विस्तार तेजी से हो रहा है। सरकारी योजनाएं, शिक्षा प्लेटफॉर्म, बैंकिंग सेवाएं और हेल्थ सेक्टर में AI का उपयोग बढ़ रहा है। ऐसे में अगर AI सिस्टम भारतीय भाषाओं और स्थानीय जरूरतों को ठीक से नहीं समझेंगे, तो उनकी उपयोगिता सीमित रह जाएगी। Sarvam AI इस खाली जगह को भरने की कोशिश कर रहा है। यह केवल टेक्नोलॉजी नहीं बना रहा है, बल्कि भारत के डिजिटल इकोसिस्टम के लिए आधार तैयार कर रहा है।

LEAVE A REPLY
Please enter your comment!
Please enter your name here