हिंदी कॉर्पोरा परियोजना की प्रगति
हिंदी कॉर्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक का आयोजन
केंद्रीय हिंदी संस्थान आगरा और भारतीय भाषा संस्थान मैसूर के संयुक्त तत्वावधान में चल रही हिंदी कार्पोरा परियोजना की सलाहकार समिति की तीसरी बैठक दिनांक 12 फरवरी, 2007 को मुख्यालय आगरा में संपन्न हुई। बैठक की अध्यक्षता करते हुए निदेशक प्रो.शंभुनाथ ने कहा कि परियोजना में संकलित सामग्री के अनुप्रयोगात्मक पक्षों का विकास करते हुए आगामी चरण में परियोजना को उत्पादक बनाया जाए और प्रयोजनमूलक शिक्षण सामग्री तैयार की जाए।
बैठक में कॉर्पोरा से संबंधित कई महत्वपूर्ण निर्णय लिए गए जिनका अनुपालन किया जाएगा। प्रो. श्रीशचंद जैसवाल, प्रो.अश्वनीकुमार श्रीवास्तव, डॉ. बी. मल्लिकार्जुन, डॉ. ज्योत्स्ना रघुवंशी ने महत्वपूर्ण सुझाव दिए। परियोजना में कार्यरत सभी सदस्यों ने बैठक में सहभागिता की।
परियोजना में निर्धारित लक्ष्य के अनुरूप सामग्री संकलन
केंद्रीय हिंदी संस्थान, आगरा और भारतीय भाषा संस्थान, मैसूर की संयुक्त त्रिवर्षीय परियोजना हिंदी कॉर्पोरा की सलाहकार समिति की पहली बैठक 11-12 मार्च 2005 में हुई थी। जिसमें सामग्री संकलन का लक्ष्य 20 मिलियन शब्द रखा गया था। जिसे दूसरे वर्ष में ही पूरा कर लिया गया है।
अभी तक संकलित सामग्री (शब्दों) का विवरण इस प्रकार है
विषय वस्तु | केंद्रीय हिंदी संस्थान, आगरा | भारतीय भाषा संस्थान, मैसूर | योग |
Text Corpora | 43,19,474 | 1,18,70,139 | 1,61,89,613 |
News Corpora | 03,51,311 | 39,10,637 | 42,61,948 |
कुल योग | 46,70,785 | 1,57,80,776 | 2,04,51,561 |
संकलित सामग्री का स्वचालित व्याकरणिक कोटि निर्धारण व भाषिक विश्लेषण का कार्य प्रारंभ किया जा चुका है। भारतीय भाषा संस्थान मैसूर द्वारा तैयार 10 टूल पैकेज का अनुप्रयोग किया जा रहा है। 1414647 शब्दों में व्याकरणिक कोटि के स्तर पर आवृत्ति परीक्षण किया गया है जिसमें सबसे अधिक 364754 शब्द संज्ञा के हैं।
वर्ष 2007-08 का निर्धारित लक्ष्य
परियोजना सलाहकार समिति की तीसरी बैठक 12-02-07 के सुझावों के अनुरूप निम्नलिखित कार्यों को आगामी वर्ष में किया जाएगा- · वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से सामग्री का संकलन कार्य · संकलित सामग्री का व्याकरणिक कोटि निर्धारण · “10 टूल पैकेज” का प्रयोग करते हुए भाषिक विश्लेषण का कार्य · टैग सामग्री के आधार पर हिंदी की आधारभूत शब्दावली का निर्माण · टैग सामग्री का अनुप्रयोग करते हुए डिजीटल हिंदी-अंग्रेजी शब्दकोश का निर्माण · संकलित सामग्री का अनुप्रयोग करते हुए अन्य भाषा-भाषियों के लिए कंप्यूटर-साधित हिंदी भाषा-शिक्षण सामग्री (CALL Package) का निर्माण
हिंदी कॉर्पोरा की वेबसाइट
हिंदी कॉर्पोरा परियोजना में अभी तक संकलित सामग्री शीघ्र ही वेब पर उपलब्ध होगी। वर्ष 1991 से 2008 तक हिंदी में प्रकाशित 78 विषय क्षेत्रों से संकलित 20 मिलियन से अधिक शब्दावली यूनीकोड में व्याकरणिक कोटि निर्धारण सहित वेब पर पहली बार उपलब्ध होगी। यह सामग्री वर्तमान में प्रयुक्त हिंदी का वास्तविक स्वरूप प्रस्तुत करती हैं। इस सामग्री का अनुप्रयोग विविध अनुसंधानपरक योजनाओं: समकालीन हिंदी व्याकरण, शब्द विश्लेषक एवं मशीनी अनुवाद प्रणाली विकास आदि के लिए किया जा सकेगा।