kalinga.ai

Breaking Language Barriers: How Olive AI is Bringing LLM Technology to 35 Million Odia Speakers

ଭାଷା ପ୍ରତିବନ୍ଧକ ଦୂର କରିବା: କିପରି ଅଲିଭ୍ ଏଆଇ 35 ନିୟୁତ ଓଡ଼ିଆ ଭାଷାଭାଷୀଙ୍କ ପାଇଁ ଏଲଏଲଏମ ପ୍ରଯୁକ୍ତିବିଦ୍ୟା ଆଣୁଛି

Olive AI announcement poster: Bringing Large Language Model (LLM) technology to the Odia-speaking community.
Empowering 35 Million Voices: Olive AI brings LLM technology to the Odia community.

TL;DR: The democratization of Artificial Intelligence just took a major leap forward with the release of Olive, a groundbreaking Large Language Model (LLM) specifically designed for the Odia language. Released by the OdiaGenAI team, this model bridges the digital divide for 35 million speakers who have been largely overlooked by mainstream AI development.

TL;DR: ଓଡ଼ିଆ ଭାଷା ପାଇଁ ସ୍ୱତନ୍ତ୍ର ଭାବରେ ଡିଜାଇନ୍ କରାଯାଇଥିବା ଏକ ଅଭିନବ ଲାର୍ଜ ଲାଙ୍ଗୁଏଜ୍ ମଡେଲ୍ (LLM) ଅଲିଭ୍ ମୁକ୍ତି ସହିତ କୃତ୍ରିମ ବୁଦ୍ଧିମତ୍ତାର ଗଣତାନ୍ତ୍ରିକୀକରଣ ଏକ ବଡ଼ ସଫଳତା ହାସଲ କରିଛି। OdiaGenAI ଦଳ ଦ୍ୱାରା ପ୍ରକାଶିତ, ଏହି ମଡେଲ୍ ମୁଖ୍ୟଧାରାର AI ବିକାଶ ଦ୍ୱାରା ପ୍ରାୟତଃ ଅଣଦେଖା କରାଯାଇଥିବା 35 ନିୟୁତ ଭାଷାଭାଷୀଙ୍କ ପାଇଁ ଡିଜିଟାଲ୍ ବିଭାଜନକୁ ଦୂର କରେ।

Why Odia LLMs Matter for the Future of AI

AIର ଭବିଷ୍ୟତ ପାଇଁ ଓଡ଼ିଆ LLM କାହିଁକି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ?

While ChatGPT and GPT-4 dominate global headlines, these LLMs primarily serve English speakers and high-resource languages. This creates a “digital gap” where billions cannot benefit from the AI revolution.The Odia language, spoken by over 35 million people primarily in Odisha, India, has been one of these underserved communities. The launch of Olive marks a shift toward Language Equity in AI, ensuring that regional languages have a seat at the table in the era of Generative AI.

ChatGPT ଏବଂ GPT-4 ବିଶ୍ୱସ୍ତରୀୟ ଶିରୋନାମାରେ ପ୍ରାଧାନ୍ୟ ବିସ୍ତାର କରୁଥିବା ବେଳେ, ଏହି LLMଗୁଡ଼ିକ ମୁଖ୍ୟତଃ ଇଂରାଜୀ ଭାଷାଭାଷୀ ଏବଂ ଉଚ୍ଚ-ସମ୍ବଳ ଭାଷାଗୁଡ଼ିକୁ ସେବା ପ୍ରଦାନ କରନ୍ତି। ଏହା ଏକ “ଡିଜିଟାଲ୍ ବ୍ୟବଧାନ” ସୃଷ୍ଟି କରେ ଯେଉଁଠାରେ କୋଟି କୋଟି ଲୋକ AI ବିପ୍ଳବରୁ ଲାଭ ପାଇପାରିବେ ନାହିଁ।
ପ୍ରାଥମିକ ଭାବରେ ଭାରତର ଓଡ଼ିଶାରେ 35 ନିୟୁତରୁ ଅଧିକ ଲୋକଙ୍କ ଦ୍ୱାରା କଥିତ ଓଡ଼ିଆ ଭାଷା ଏହି ଅନୁନ୍ନତ ସମ୍ପ୍ରଦାୟ ମଧ୍ୟରୁ ଗୋଟିଏ। ଅଲିଭ୍ ର ଶୁଭାରମ୍ଭ AI ରେ ଭାଷା ସମାନତା ଆଡ଼କୁ ଏକ ପରିବର୍ତ୍ତନକୁ ଚିହ୍ନିତ କରେ, ଯାହା ନିଶ୍ଚିତ କରେ ଯେ ଜେନେରେଟିଭ୍ AI ଯୁଗରେ ଆଞ୍ଚଳିକ ଭାଷାଗୁଡ଼ିକ ଟେବୁଲରେ ସ୍ଥାନ ପାଇବ।

Meet Olive: The First Instruction-Following Odia LLM

ଅଲିଭ୍‌କୁ ଭେଟନ୍ତୁ: ପ୍ରଥମ ନିର୍ଦ୍ଦେଶ-ଅନୁସରଣକାରୀ ଓଡ଼ିଆ ଏଲ୍‌ଏଲ୍‌ଏମ୍‌

On May 19, 2023, the OdiaGenAI team made history by releasing Olive (odiagenAI-model-v1). Unlike general multilingual models that offer “token” support, Olive is a dedicated AI assistant built to understand and respond to instructions in native Odia.

୧୯ ମଇ, ୨୦୨୩ରେ, OdiaGenAI ଦଳ ଅଲିଭ୍ (odiagenAI-model-v1) ମୁକ୍ତିଲାଭ କରି ଇତିହାସ ସୃଷ୍ଟି କରିଥିଲା। “ଟୋକେନ୍” ସମର୍ଥନ ପ୍ରଦାନ କରୁଥିବା ସାଧାରଣ ବହୁଭାଷୀ ମଡେଲ୍ ପରି ନୁହେଁ, ଅଲିଭ୍ ହେଉଛି ଏକ ଉତ୍ସର୍ଗୀକୃତ AI ସହାୟକ ଯାହା ସ୍ଥାନୀୟ ଓଡ଼ିଆରେ ନିର୍ଦ୍ଦେଶଗୁଡ଼ିକୁ ବୁଝିବା ଏବଂ ପ୍ରତିକ୍ରିୟା ଦେବା ପାଇଁ ନିର୍ମିତ।

The Technical Innovation Behind Olive AI

ଅଲିଭ୍ ଏଆଇ ପଛରେ ଥିବା ବୈଷୟିକ ନବସୃଜନ

What makes this LLM impressive is the grassroots technical process used to build it:

  • Massive Dataset Creation: The team assembled 171,000 Odia instruction sets by translating renowned English datasets (Alpaca, Dolly) using the IndicTrans library.
  • Foundation on Proven Architecture: Olive is built on Meta’s LLaMA-7B architecture and fine-tuned using the Alpaca-LoRA approach.
  • Community-Driven Development: This project was achieved without a billion-dollar corporate budget, utilizing Google Colab Pro+ and roughly 30 hours of intensive training time.

ଏହି LLMକୁ ପ୍ରଭାବଶାଳୀ କରୁଥିବା ବିଷୟ ହେଉଛି ଏହାକୁ ନିର୍ମାଣ କରିବା ପାଇଁ ବ୍ୟବହୃତ ତୃଣମୂଳସ୍ତରୀୟ ବୈଷୟିକ ପ୍ରକ୍ରିୟା:
ବିପୁଳ ଡାଟାସେଟ୍ ସୃଷ୍ଟି: ଦଳ ଇଣ୍ଡିକଟ୍ରାନ୍ସ ଲାଇବ୍ରେରୀ ବ୍ୟବହାର କରି ପ୍ରସିଦ୍ଧ ଇଂରାଜୀ ଡାଟାସେଟ୍ (ଆଲପାକା, ଡଲି) ଅନୁବାଦ କରି 171,000 ଓଡ଼ିଆ ନିର୍ଦ୍ଦେଶନା ସେଟ୍ ସଂଗ୍ରହ କରିଥିଲେ।
ପ୍ରମାଣିତ ସ୍ଥାପତ୍ୟ ଉପରେ ଭିତ୍ତିଭୂମି: ଅଲିଭ୍ ମେଟାର LLaMA-7B ସ୍ଥାପତ୍ୟ ଉପରେ ନିର୍ମିତ ଏବଂ ଆଲପାକା-LoRA ପଦ୍ଧତି ବ୍ୟବହାର କରି ଏହାକୁ ସଜାଡ଼ି ଦିଆଯାଇଛି।
ସମ୍ପ୍ରଦାୟ-ଚାଳିତ ବିକାଶ: ଏହି ପ୍ରକଳ୍ପଟି ଏକ ବିଲିୟନ ଡଲାରର କର୍ପୋରେଟ୍ ବଜେଟ୍ ବିନା ହାସଲ କରାଯାଇଥିଲା, Google Colab Pro+ ଏବଂ ପ୍ରାୟ 30 ଘଣ୍ଟାର ସଘନ ତାଲିମ ସମୟ ବ୍ୟବହାର କରାଯାଇଥିଲା।

Real-World Performance: What the Olive AI Model Can Do

ବାସ୍ତବ-ବିଶ୍ୱ ପ୍ରଦର୍ଶନ: ଅଲିଭ୍ ଏଆଇ ମଡେଲ୍ କ’ଣ କରିପାରିବ

As an early-stage Language Model, Olive shows both incredible promise and areas for future optimization.

ଏକ ପ୍ରାରମ୍ଭିକ ପର୍ଯ୍ୟାୟ ଭାଷା ମଡେଲ ଭାବରେ, ଅଲିଭ୍ ଭବିଷ୍ୟତର ଅପ୍ଟିମାଇଜେସନ୍ ପାଇଁ ଅବିଶ୍ୱସନୀୟ ପ୍ରତିଶ୍ରୁତି ଏବଂ କ୍ଷେତ୍ର ଉଭୟ ଦେଖାଏ।

Current Strengths of Olive LLM:

  • Natural Language Generation: Follows Odia instructions with high coherence.
  • General Knowledge: Accurately answers questions about India and national figures.
  • Conversational Context: Understands dialogue flow better than standard translation tools.

ଅଲିଭ୍ ଏଲ୍ଏଲ୍ଏମ୍ର ବର୍ତ୍ତମାନର ଶକ୍ତି:
ପ୍ରାକୃତିକ ଭାଷା ସୃଷ୍ଟି: ଉଚ୍ଚ ସୁସଙ୍ଗତି ସହିତ ଓଡ଼ିଆ ନିର୍ଦ୍ଦେଶାବଳୀ ଅନୁସରଣ କରେ।
ସାଧାରଣ ଜ୍ଞାନ: ଭାରତ ଏବଂ ଜାତୀୟ ବ୍ୟକ୍ତିତ୍ୱ ବିଷୟରେ ପ୍ରଶ୍ନର ସଠିକ୍ ଉତ୍ତର ଦିଏ।
କଥୋପକଥନ ପ୍ରସଙ୍ଗ: ମାନକ ଅନୁବାଦ ଉପକରଣ ଅପେକ୍ଷା ସଂଳାପ ପ୍ରବାହକୁ ଭଲ ଭାବରେ ବୁଝେ।

Areas for Growth:

  • Localized Context: Improving knowledge of Odisha-specific literature and history.
  • Complex Reasoning: Enhancing performance in arithmetic and logic.
  • Hallucinations: Reducing common LLM errors typical of first-generation models.

ଅଭିବୃଦ୍ଧିର କ୍ଷେତ୍ର:
ସ୍ଥାନୀୟ ପ୍ରସଙ୍ଗ: ଓଡ଼ିଶା-ନିର୍ଦ୍ଦିଷ୍ଟ ସାହିତ୍ୟ ଏବଂ ଇତିହାସର ଜ୍ଞାନ ଉନ୍ନତ କରିବା।
ଜଟିଳ ଯୁକ୍ତି: ପାଟିଗଣିତ ଏବଂ ତର୍କରେ କାର୍ଯ୍ୟଦକ୍ଷତା ବୃଦ୍ଧି କରିବା।
ଭ୍ରମ: ପ୍ରଥମ ପିଢ଼ିର ମଡେଲଗୁଡ଼ିକର ସାଧାରଣ LLM ତ୍ରୁଟି ହ୍ରାସ କରିବା।

What’s Next for Odia AI and Machine Learning?

The OdiaGenAI team and the Odisha.ML community have a roadmap to push the boundaries of Indic NLP:

  1. Enhanced Local Knowledge: Integrating data on Odisha’s history, cuisine, and politics.
  2. Larger Foundational Models: Experimenting with bigger open-source architectures.
  3. Domain-Specific AI: Creating specialized bots for healthcare, education, and governance.

ଓଡ଼ିଆ ଏଆଇ ଏବଂ ମେସିନ୍ ଲର୍ଣ୍ଣିଂ ପାଇଁ ପରବର୍ତ୍ତୀ କ’ଣ?

ଓଡ଼ିଆଜେନ୍‌ଏଆଇ ଦଳ ଏବଂ ଓଡ଼ିଶା.ଏମ୍‌ଏଲ୍ ସମ୍ପ୍ରଦାୟର ଇଣ୍ଡିକ୍ ଏନ୍‌ଏଲ୍‌ପିର ସୀମାକୁ ଆଗକୁ ବଢ଼ାଇବା ପାଇଁ ଏକ ରୋଡମ୍ୟାପ୍ ଅଛି:

ଉନ୍ନତ ସ୍ଥାନୀୟ ଜ୍ଞାନ: ଓଡ଼ିଶାର ଇତିହାସ, ଖାଦ୍ୟପେୟ ଏବଂ ରାଜନୀତି ଉପରେ ତଥ୍ୟ ଏକତ୍ରିତ କରିବା।

ବଡ଼ ମୂଳଦୁଆ ମଡେଲ୍‌: ବଡ଼ ଖୋଲା-ଉତ୍ସ ସ୍ଥାପତ୍ୟ ସହିତ ପରୀକ୍ଷଣ।

ଡୋମେନ୍-ନିର୍ଦ୍ଦିଷ୍ଟ ଏଆଇ: ସ୍ୱାସ୍ଥ୍ୟସେବା, ଶିକ୍ଷା ଏବଂ ଶାସନ ପାଇଁ ସ୍ୱତନ୍ତ୍ର ବଟ୍‌ ସୃଷ୍ଟି କରିବା।

How to Access Olive AI

True to the principles of Open Science, the models and datasets are available for researchers and developers:

  • Hugging Face: Access OdiaGenAI/odiagenAI-model-v1.
  • GitHub: Find implementation details and fine-tuning code.
  • License: Distributed under CC BY-NC-SA 4.0.

ଅଲିଭ୍ AI କିପରି ପ୍ରବେଶ କରିବେ
ଖୋଲା ବିଜ୍ଞାନର ନୀତି ଅନୁଯାୟୀ, ମଡେଲ୍ ଏବଂ ଡାଟାସେଟ୍ ଗବେଷକ ଏବଂ ଡେଭଲପରମାନଙ୍କ ପାଇଁ ଉପଲବ୍ଧ:
ଆଲିଙ୍ଗନ ମୁହଁ: OdiaGenAI/odiagenAI-model-v1 ପ୍ରବେଶ କରନ୍ତୁ।
GitHub: କାର୍ଯ୍ୟାନ୍ୱୟନ ବିବରଣୀ ଏବଂ ଫାଇନ୍-ଟ୍ୟୁନିଂ କୋଡ୍ ଖୋଜନ୍ତୁ।
ଲାଇସେନ୍ସ: CC BY-NC-SA 4.0 ଅଧୀନରେ ବିତରିତ।

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top