मंगलवार, नव 19

  •  
  •  
आप यहाँ हैं:घर परियोजनाएँ हिंदी कॉर्पोरा परियोजना प्रगति

हिंदी कॉर्पोरा परियोजना की प्रगति

 हिंदी कॉर्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक का आयोजन

केंद्रीय हिंदी संस्थान आगरा और भारतीय भाषा संस्थान मैसूर के संयुक्त तत्वावधान में चल रही हिंदी कार्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक दिनांक 12 फरवरी, 2007 को मुख्यालय आगरा में संपन्न हुई। बैठक की अध्यक्षता करते हुए निदेशक प्रो.शंभुनाथ ने कहा कि परियोजना में संकलित सामग्री के अनुप्रयोगात्मक पक्षों का विकास करते हुए आगामी चरण में परियोजना को उत्पादक बनाया जाए और प्रयोजनमूलक शिक्षण सामग्री तैयार की जाए।

बैठक में कॉर्पोरा से संबंधित कई महत्वपूर्ण निर्णय लिए गए जिनका अनुपालन किया जाएगा। प्रो. श्रीशचंद जैसवाल, प्रो.अश्वनीकुमार श्रीवास्तव, डॉ. बी. मल्लिकार्जुन, डॉ. ज्योत्स्ना रघुवंशी ने महत्वपूर्ण सुझाव दिए। परियोजना में कार्यरत सभी सदस्यों ने बैठक में सहभागिता की।

परियोजना में निर्धारित लक्ष्य के अनुरूप सामग्री संकलन

केंद्रीय हिंदी संस्थान, आगरा और भारतीय भाषा संस्थान, मैसूर की संयुक्त त्रिवर्षीय परियोजना हिंदी कॉर्पोरा की सलाहकार समिति की पहली बैठक 11-12 मार्च 2005 में हुई थी। जिसमें सामग्री संकलन का लक्ष्य 20 मिलियन शब्द रखा गया था। जिसे दूसरे वर्ष में ही पूरा कर लिया गया है।

अभी तक संकलित सामग्री (शब्दों) का विवरण इस प्रकार है

विषय वस्तु केंद्रीय हिंदी संस्थान, आगरा भारतीय भाषा संस्थान, मैसूर योग
Text Corpora 43,19,474 1,18,70,139 1,61,89,613
News Corpora 03,51,311 39,10,637 42,61,948
कुल योग 46,70,785 1,57,80,776 2,04,51,561

संकलित सामग्री का स्वचालित व्याकरणिक कोटि निर्धारण व भाषिक विश्लेषण का कार्य प्रारंभ किया जा चुका है। भारतीय भाषा संस्थान मैसूर द्वारा तैयार 10 टूल पैकेज का अनुप्रयोग किया जा रहा है। 1414647 शब्दों में व्याकरणिक कोटि के स्तर पर आवृत्ति परीक्षण किया गया है जिसमें सबसे अधिक 364754 शब्द संज्ञा के हैं।

वर्ष 2007-08 का निर्धारित लक्ष्य

परियोजना सलाहकार समिति की तीसरी बैठक 12-02-07 के सुझावों के अनुरूप निम्नलिखित कार्यों को आगामी वर्ष में किया जाएगा- · वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से सामग्री का संकलन कार्य · संकलित सामग्री का व्याकरणिक कोटि निर्धारण · “10 टूल पैकेज” का प्रयोग करते हुए भाषिक विश्लेषण का कार्य · टैग सामग्री के आधार पर हिंदी की आधारभूत शब्दावली का निर्माण · टैग सामग्री का अनुप्रयोग करते हुए डिजीटल हिंदी-अंग्रेजी शब्दकोश का निर्माण · संकलित सामग्री का अनुप्रयोग करते हुए अन्य भाषा-भाषियों के लिए कंप्यूटर-साधित हिंदी भाषा-शिक्षण सामग्री (CALL Package) का निर्माण

हिंदी कॉर्पोरा की वेबसाइट

हिंदी कॉर्पोरा परियोजना में अभी तक संकलित सामग्री शीघ्र ही वेब पर उपलब्ध होगी। वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से संकलित 20 मिलियन से अधिक शब्दावली यूनीकोड में व्याकरणिक कोटि निर्धारण सहित वेब पर पहली बार उपलब्ध होगी। यह सामग्री वर्तमान में प्रयुक्त हिंदी का वास्तविक स्वरूप प्रस्तुत करती हैं। इस सामग्री का अनुप्रयोग विविध अनुसंधानपरक योजनाओं: समकालीन हिंदी व्याकरण, शब्द विश्लेषक एवं मशीनी अनुवाद प्रणाली विकास आदि के लिए किया जा सकेगा।