হাগিং ফেস ট্রান্সফরমারে টোকেনাইজার কীভাবে ব্যবহার করবেন?

Hagim Phesa Transapharamare Tokena Ijara Kibhabe Byabahara Karabena



ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) ডেটার কাঁচা ফর্মে কাজ করে। মেশিন লার্নিং মডেলগুলিকে জটিল ডেটার উপর প্রশিক্ষণ দেওয়া হয়, কিন্তু তারা কাঁচা ডেটা বুঝতে পারে না। ডেটার এই কাঁচা ফর্মের সাথে অবশ্যই কিছু সংখ্যাসূচক মান যুক্ত থাকতে হবে। এই মানটি ডেটাতে শব্দের মূল্য এবং গুরুত্ব নির্ধারণ করে এবং এর ভিত্তিতে গণনা করা হয়।

এই নিবন্ধটি আলিঙ্গন ফেস ট্রান্সফরমারগুলিতে টোকেনাইজার ব্যবহার করার বিষয়ে একটি ধাপে ধাপে নির্দেশিকা প্রদান করে।

টোকেনাইজার কি?

টোকেনাইজার হল NLP-এর একটি গুরুত্বপূর্ণ ধারণা, এবং এর মূল উদ্দেশ্য হল কাঁচা পাঠকে সংখ্যায় অনুবাদ করা। এই উদ্দেশ্যে উপস্থিত বিভিন্ন কৌশল এবং পদ্ধতি আছে। যাইহোক, এটা লক্ষনীয় যে প্রতিটি কৌশল একটি নির্দিষ্ট উদ্দেশ্য পরিবেশন করে।
হাগিং ফেস ট্রান্সফরমারে টোকেনাইজার কীভাবে ব্যবহার করবেন?







হাগিং ফেস ট্রান্সফরমারে টোকেনাইজার কীভাবে ব্যবহার করবেন?

টোকেনাইজার লাইব্রেরি ব্যবহার করার আগে এবং এটি থেকে ফাংশন আমদানি করার আগে প্রথমে ইনস্টল করা আবশ্যক। এর পরে, AutoTokenizer ব্যবহার করে একটি মডেলকে প্রশিক্ষণ দিন, এবং তারপর টোকেনাইজেশন সঞ্চালনের জন্য ইনপুট প্রদান করুন।



আলিঙ্গন মুখ টোকেনাইজেশনের তিনটি প্রধান বিভাগ উপস্থাপন করে যা নীচে দেওয়া হল:



  • শব্দ ভিত্তিক টোকেনাইজার
  • চরিত্র ভিত্তিক টোকেনাইজার
  • সাবওয়ার্ড ভিত্তিক টোকেনাইজার

ট্রান্সফরমারগুলিতে টোকেনাইজার ব্যবহার করার জন্য এখানে একটি ধাপে ধাপে নির্দেশিকা রয়েছে:





ধাপ 1: ট্রান্সফরমার ইনস্টল করুন
ট্রান্সফরমার ইনস্টল করতে, নিম্নলিখিত কমান্ডে পিপ কমান্ডটি ব্যবহার করুন:

! পিপ ইনস্টল ট্রান্সফরমার



ধাপ 2: ক্লাস আমদানি করুন
ট্রান্সফরমার থেকে, আমদানি পাইপলাইন , এবং AutoModelForSequence শ্রেণীবিভাগ শ্রেণীবিভাগ সঞ্চালনের জন্য গ্রন্থাগার:

ট্রান্সফরমার আমদানি পাইপলাইন থেকে, AutoModelForSequenceClassification

ধাপ 3: মডেল আমদানি করুন
দ্য ' AutoModelForSequence শ্রেণীবিভাগ টোকেনাইজেশনের জন্য অটো-ক্লাসের অন্তর্গত একটি পদ্ধতি। দ্য থেকে_প্রশিক্ষিত() পদ্ধতিটি মডেলের প্রকারের উপর ভিত্তি করে সঠিক মডেল ক্লাস ফেরত দিতে ব্যবহৃত হয়।

এখানে আমরা মডেলটির নাম দিয়েছি ' ণশড পরিবর্তনশীল:

ণশড = 'ডিস্টিলবার্ট-বেস-আনকেসড-ফাইনটিউনড-এসএসটি-2-ইংরেজি'
প্রি_ট্রেনিং মডেল =AutoModelForSequenceClassification.from_pretrained ( ণশড )

ধাপ 4: AutoTokenizer আমদানি করুন
পাস করে টোকেন তৈরি করতে নিম্নলিখিত কমান্ডটি প্রদান করুন ণশড 'যুক্তি হিসাবে:

ট্রান্সফরমার থেকে AutoTokenizer আমদানি করুন

উৎপন্ন টোকেন =AutoTokenizer.from_pretrained ( ণশড )

ধাপ 5: টোকেন তৈরি করুন
এখন, আমরা একটি বাক্যে টোকেন তৈরি করব 'আমি ভাল খাবার পছন্দ করি' ব্যবহার করে ' উৎপন্ন টোকেন পরিবর্তনশীল:

শব্দ = জেনারেটটোকেন ( 'আমি ভাল খাবার পছন্দ করি' )
ছাপা ( শব্দ )

আউটপুট নিম্নরূপ দেওয়া হয়:

উপরের কোড Google Co এখানে দেওয়া হয়।

উপসংহার

Hugging Face-এ Tokenizers ব্যবহার করতে, pip কমান্ড ব্যবহার করে লাইব্রেরি ইনস্টল করুন, AutoTokenizer ব্যবহার করে একটি মডেলকে প্রশিক্ষণ দিন, এবং তারপর টোকেনাইজেশন সঞ্চালনের জন্য ইনপুট প্রদান করুন। টোকেনাইজেশন ব্যবহার করে, বাক্যটির অর্থ ধরে রাখার জন্য যে শব্দগুলির উপর ভিত্তি করে সেগুলি ক্রম করা হয়েছে তার ওজন নির্ধারণ করুন। এই স্কোর বিশ্লেষণের জন্য তাদের মূল্য নির্ধারণ করে। আলিঙ্গন ফেস ট্রান্সফরমারগুলিতে টোকেনাইজারগুলি কীভাবে ব্যবহার করবেন সে সম্পর্কে এই নিবন্ধটি একটি বিশদ নির্দেশিকা।