আলিঙ্গন মুখে ডেটাসেটগুলি কীভাবে সংযুক্ত করবেন

Alingana Mukhe Detasetaguli Kibhabe Sanyukta Karabena



হাগিং ফেস থেকে 'ডেটাসেট' লাইব্রেরি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজগুলির জন্য ডেটাসেটগুলির সাথে কাজ করার এবং ম্যানিপুলেট করার একটি সুবিধাজনক উপায় প্রদান করে৷ লাইব্রেরি দ্বারা অফার করা একটি দরকারী ফাংশন হল concatenate_datasets() যা আপনাকে একাধিক ডেটাসেটকে একক ডেটাসেটে সংযুক্ত করতে দেয়। নিচে concatenate_datasets() ফাংশনের একটি সংক্ষিপ্ত ওভারভিউ এবং এটি কিভাবে ব্যবহার করতে হয়।

concatenate_datasets()

বর্ণনা:

আলিঙ্গন মুখের 'ডেটাসেট' লাইব্রেরি concatenate_datasets() ফাংশন প্রদান করে। এটি একটি নির্দিষ্ট অক্ষ বরাবর একটি একক ডেটাসেটে একত্রিত করে একাধিক ডেটাসেটকে একত্রিত করতে ব্যবহৃত হয়। এই ফাংশনটি বিশেষভাবে উপযোগী হয় যখন আপনার একাধিক ডেটাসেট থাকে যা একই কাঠামো ভাগ করে এবং আপনি পরবর্তী প্রক্রিয়াকরণ এবং বিশ্লেষণের জন্য সেগুলিকে একটি ইউনিফাইড ডেটাসেটে মার্জ করতে চান৷







বাক্য গঠন:



থেকে ডেটাসেট আমদানি concatenate_datasets

concatenated_dataset = concatenate_datasets ( ডেটাসেট , অক্ষ = 0 , তথ্য = কোনোটিই নয় )

পরামিতি:

ডেটাসেট (ডেটাসেটের তালিকা): ডেটাসেটের একটি তালিকা যা আপনি সংযুক্ত করতে চান। এই ডেটাসেটগুলির সামঞ্জস্যপূর্ণ বৈশিষ্ট্য থাকা উচিত যার অর্থ তাদের একই স্কিমা, কলামের নাম এবং ডেটা প্রকার রয়েছে৷



অক্ষ (int, ঐচ্ছিক, ডিফল্ট=0): যে অক্ষ বরাবর সংযোজন করা উচিত। বেশিরভাগ এনএলপি ডেটাসেটের জন্য, ডিফল্ট মান 0 ব্যবহার করা হয় যার অর্থ হল ডেটাসেটগুলি উল্লম্বভাবে সংযুক্ত করা হয়। আপনি যদি অক্ষ=1 সেট করেন, ডেটাসেটগুলি অনুভূমিকভাবে সংযুক্ত করা হয়, অনুমান করে যে তাদের বৈশিষ্ট্য হিসাবে আলাদা কলাম রয়েছে।





তথ্য (datasets.DatasetInfo, ঐচ্ছিক): সংযুক্ত ডেটাসেট সম্পর্কে তথ্য। যদি প্রদান না করা হয়, তালিকার প্রথম ডেটাসেট থেকে তথ্য অনুমান করা হয়।

রিটার্ন:

concatenated_dataset (ডেটাসেট): সমস্ত ইনপুট ডেটাসেট একত্রিত করার পর ফলস্বরূপ ডেটাসেট।



উদাহরণ:

# ধাপ 1: ডেটাসেট লাইব্রেরি ইনস্টল করুন

# আপনি পিপ ব্যবহার করে এটি ইনস্টল করতে পারেন:

# !পিপ ডেটাসেট ইনস্টল করুন

# ধাপ 2: প্রয়োজনীয় লাইব্রেরি আমদানি করুন

থেকে ডেটাসেট আমদানি load_dataset , concatenate_datasets

# ধাপ 3: IMDb মুভি পর্যালোচনা ডেটাসেট লোড করুন

# আমরা দুটি IMDb ডেটাসেট ব্যবহার করব, একটি ইতিবাচক পর্যালোচনার জন্য

#এবং অন্যটি নেতিবাচক পর্যালোচনার জন্য।

# লোড 2500 ইতিবাচক পর্যালোচনা

dataset_pos = load_dataset ( 'আইএমডিবি' , বিভক্ত = 'ট্রেন[:2500]' )

# লোড 2500 নেতিবাচক পর্যালোচনা

dataset_neg = load_dataset ( 'আইএমডিবি' , বিভক্ত = 'ট্রেন[-2500:]' )

# ধাপ 4: ডেটাসেটগুলি সংযুক্ত করুন

# আমরা উভয় ডেটাসেটকে অক্ষ=0 বরাবর সংযুক্ত করি, যেমনটি রয়েছে

একই স্কিমা ( একই বৈশিষ্ট্য ) .

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# ধাপ 5: সংযুক্ত ডেটাসেট বিশ্লেষণ করুন

# সরলতার জন্য, আসুন ধনাত্মক এবং নেতিবাচক সংখ্যা গণনা করি

সংযুক্ত ডেটাসেটে #টি পর্যালোচনা।

সংখ্যা_ইতিবাচক_রিভিউ = যোগফল ( 1 জন্য লেবেল ভিতরে

concatenated_dataset [ 'লেবেল' ] যদি লেবেল == 1 )

সংখ্যা_নেতিবাচক_রিভিউ = যোগফল ( 1 জন্য লেবেল ভিতরে

concatenated_dataset [ 'লেবেল' ] যদি লেবেল == 0 )

# ধাপ 6: ফলাফল প্রদর্শন করুন

ছাপা ( 'ইতিবাচক পর্যালোচনার সংখ্যা:' , সংখ্যা_ইতিবাচক_রিভিউ )

ছাপা ( 'নেতিবাচক পর্যালোচনার সংখ্যা:' , সংখ্যা_নেতিবাচক_রিভিউ )

# ধাপ 7: সংযুক্ত ডেটাসেট থেকে কয়েকটি উদাহরণ পর্যালোচনা প্রিন্ট করুন

ছাপা ( ' \n কিছু উদাহরণ পর্যালোচনা:' )

জন্য i ভিতরে পরিসীমা ( 5 ) :

ছাপা ( 'রিভিউ করুন {i + 1}: {concatenated_dataset['text'][i]}' )

আউটপুট:

নিম্নলিখিতটি হগিং ফেসের 'ডেটাসেট' লাইব্রেরি প্রোগ্রামের ব্যাখ্যা যা দুটি আইএমডিবি মুভি পর্যালোচনা ডেটাসেটকে একত্রিত করে। এটি প্রোগ্রামের উদ্দেশ্য, এর ব্যবহার এবং কোডের সাথে জড়িত পদক্ষেপগুলি ব্যাখ্যা করে।

কোডের প্রতিটি ধাপের আরও বিস্তারিত ব্যাখ্যা দেওয়া যাক:

# ধাপ 1: প্রয়োজনীয় লাইব্রেরি আমদানি করুন

থেকে ডেটাসেট আমদানি load_dataset , concatenate_datasets

এই ধাপে, আমরা প্রোগ্রামের জন্য প্রয়োজনীয় লাইব্রেরি আমদানি করি। IMDb মুভি রিভিউ ডেটাসেটগুলি লোড করার জন্য আমাদের 'লোড_ডেটাসেট' ফাংশন এবং পরে সেগুলিকে সংযুক্ত করার জন্য 'কনকেটনেট_ডেটাসেট' প্রয়োজন৷

# ধাপ 2: IMDb মুভি রিভিউ ডেটাসেট লোড করুন

# লোড 2500 ইতিবাচক পর্যালোচনা

dataset_pos = load_dataset ( 'আইএমডিবি' , বিভক্ত = 'ট্রেন[:2500]' )

# লোড 2500 নেতিবাচক পর্যালোচনা

dataset_neg = load_dataset ( 'আইএমডিবি' , বিভক্ত = 'ট্রেন[-2500:]' )

এখানে, আমরা IMDb ডেটাসেটের দুটি উপসেট আনতে 'load_dataset' ফাংশন ব্যবহার করি। 'dataset_pos'-এ 2500টি ইতিবাচক পর্যালোচনা রয়েছে এবং 'dataset_neg'-এ 2500টি নেতিবাচক পর্যালোচনা রয়েছে৷ লোড করার জন্য উদাহরণগুলির পরিসর নির্দিষ্ট করতে আমরা বিভক্ত প্যারামিটার ব্যবহার করি যা আমাদের সম্পূর্ণ ডেটাসেটের একটি উপসেট নির্বাচন করতে দেয়।

# ধাপ 3: ডেটাসেটগুলি সংযুক্ত করুন

concatenated_dataset = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

এই ধাপে, আমরা IMDb ডেটাসেটের দুটি উপসেটকে 'concatenated_dataset' নামে একটি একক ডেটাসেটে সংযুক্ত করি। আমরা 'concatenate_datasets' ফাংশন ব্যবহার করি এবং এটিকে একটি তালিকা দিয়ে পাস করি যাতে দুটি ডেটাসেট সংযুক্ত করা হয়। যেহেতু উভয় ডেটাসেটের একই বৈশিষ্ট্য রয়েছে, তাই আমরা সেগুলিকে অক্ষ=0 বরাবর সংযুক্ত করি যার অর্থ সারিগুলি একে অপরের উপরে স্ট্যাক করা হয়েছে।

# ধাপ 4: সমন্বিত ডেটাসেট বিশ্লেষণ করুন

সংখ্যা_ইতিবাচক_রিভিউ = যোগফল ( 1 জন্য লেবেল ভিতরে

concatenated_dataset [ 'লেবেল' ] যদি লেবেল == 1 )

সংখ্যা_নেতিবাচক_রিভিউ = যোগফল ( 1 জন্য লেবেল ভিতরে

concatenated_dataset [ 'লেবেল' ] যদি লেবেল == 0 )

এখানে, আমরা সংযুক্ত ডেটাসেটের একটি সহজ বিশ্লেষণ করি। আমরা ইতিবাচক এবং নেতিবাচক পর্যালোচনার সংখ্যা গণনা করতে 'সমষ্টি' ফাংশন সহ তালিকা বোঝার ব্যবহার করি। আমরা মাধ্যমে পুনরাবৃত্তি ' 'সংযুক্ত_ডেটাসেট' এর লেবেল' কলাম এবং যখনই আমরা একটি ইতিবাচক লেবেল (1) বা একটি নেতিবাচক লেবেল (0) এর সম্মুখীন হই তখন গণনা বৃদ্ধি করুন।

# ধাপ 5: ফলাফলগুলি প্রদর্শন করুন

ছাপা ( 'ইতিবাচক পর্যালোচনার সংখ্যা:' , সংখ্যা_ইতিবাচক_রিভিউ )

ছাপা ( 'নেতিবাচক পর্যালোচনার সংখ্যা:' , সংখ্যা_নেতিবাচক_রিভিউ )

এই ধাপে, আমরা আমাদের বিশ্লেষণের ফলাফলগুলি প্রিন্ট করি - সংযুক্ত ডেটাসেটে ইতিবাচক এবং নেতিবাচক পর্যালোচনার সংখ্যা।

# ধাপ 6: কয়েকটি উদাহরণ পর্যালোচনা প্রিন্ট করুন

ছাপা ( ' \n কিছু উদাহরণ পর্যালোচনা:' )

জন্য i ভিতরে পরিসীমা ( 5 ) :

ছাপা ( 'রিভিউ করুন {i + 1}: {concatenated_dataset['text'][i]}' )

অবশেষে, আমরা সংহত ডেটাসেট থেকে কয়েকটি উদাহরণ পর্যালোচনা প্রদর্শন করি। আমরা ডেটাসেটের প্রথম পাঁচটি উদাহরণ লুপ করি এবং 'টেক্সট' কলাম ব্যবহার করে তাদের পাঠ্য বিষয়বস্তু মুদ্রণ করি।

এই কোডটি IMDb মুভি রিভিউ ডেটাসেটগুলি লোড করতে, সংযুক্ত করতে এবং বিশ্লেষণ করতে Hugging Face এর 'ডেটাসেট' লাইব্রেরি ব্যবহার করার একটি সরল উদাহরণ প্রদর্শন করে৷ এটি NLP ডেটাসেট পরিচালনাকে স্ট্রিমলাইন করার জন্য লাইব্রেরির ক্ষমতাকে হাইলাইট করে এবং আরও পরিশীলিত প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেল এবং অ্যাপ্লিকেশন তৈরির জন্য এর সম্ভাব্যতা প্রদর্শন করে।

উপসংহার

পাইথন প্রোগ্রাম যেটি Hugging Face এর 'ডেটাসেট' লাইব্রেরি ব্যবহার করে তা সফলভাবে দুটি IMDb মুভি রিভিউ ডেটাসেটের সংমিশ্রণ প্রদর্শন করে। ইতিবাচক এবং নেতিবাচক পর্যালোচনাগুলির উপসেটগুলি লোড করার মাধ্যমে, প্রোগ্রামটি concatenate_datasets() ফাংশন ব্যবহার করে একটি একক ডেটাসেটে তাদের একত্রিত করে। তারপর এটি সম্মিলিত ডেটাসেটে ইতিবাচক এবং নেতিবাচক পর্যালোচনার সংখ্যা গণনা করে একটি সাধারণ বিশ্লেষণ করে।

'ডেটাসেট' লাইব্রেরি এনএলপি ডেটাসেট পরিচালনা এবং ম্যানিপুলেট করার প্রক্রিয়াটিকে সহজ করে, এটি গবেষক, বিকাশকারী এবং এনএলপি অনুশীলনকারীদের জন্য একটি শক্তিশালী হাতিয়ার করে তোলে। এর ব্যবহারকারী-বান্ধব ইন্টারফেস এবং ব্যাপক কার্যকারিতা সহ, লাইব্রেরি একটি অনায়াস ডেটা প্রিপ্রসেসিং, অন্বেষণ এবং রূপান্তর সক্ষম করে। এই ডকুমেন্টেশনে যে প্রোগ্রামটি দেখানো হয়েছে তা একটি বাস্তব উদাহরণ হিসাবে কাজ করে যে কীভাবে লাইব্রেরিটি ডেটা সংযোজন এবং বিশ্লেষণের কাজগুলিকে প্রবাহিত করার জন্য ব্যবহার করা যেতে পারে।

বাস্তব-জীবনের পরিস্থিতিতে, এই প্রোগ্রামটি আরও জটিল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একটি ভিত্তি হিসাবে কাজ করতে পারে যেমন অনুভূতি বিশ্লেষণ, পাঠ্য শ্রেণিবিন্যাস এবং ভাষা মডেলিং। 'ডেটাসেট' লাইব্রেরি ব্যবহার করে, গবেষক এবং বিকাশকারীরা দক্ষতার সাথে বড় আকারের ডেটাসেটগুলি পরিচালনা করতে পারে, পরীক্ষা-নিরীক্ষার সুবিধা দিতে পারে এবং অত্যাধুনিক এনএলপি মডেলগুলির বিকাশকে ত্বরান্বিত করতে পারে। সামগ্রিকভাবে, আলিঙ্গন মুখ 'ডেটাসেট' লাইব্রেরি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং বোঝার অগ্রগতির অন্বেষণে একটি অপরিহার্য সম্পদ হিসাবে দাঁড়িয়েছে।