পান্ডাস কিউকট

Pandasa Ki Ukata



'পাইথন'-এ অনেকগুলি লাইব্রেরি রয়েছে, এবং যখন আমরা ডেটা বিশ্লেষণ বা ম্যানিপুলেট করতে চাই, তখন আমরা এই 'পাইথনের' লাইব্রেরিগুলি ব্যবহার করি এবং 'পান্ডা'ও এটির লাইব্রেরি। 'পান্ডাস' লাইব্রেরিটি ডেটা সায়েন্সের ক্ষেত্রে ব্যবহৃত হয় এবং এটি মেশিন লার্নিং কার্যক্রমেও ব্যবহৃত হয়। 'পান্ডা' ডেটাফ্রেম আমাদের ডেটা সংরক্ষণ করতে সাহায্য করে। 'পান্ডাস'-এ যখন আমরা ডেটা বিনিং করতে চাই, তখন আমরা 'qcut()' পদ্ধতি ব্যবহার করি। 'qcut()' পদ্ধতিটি ক্রমাগত বৈশিষ্ট্যগুলিকে সুনির্দিষ্ট বৈশিষ্ট্যগুলিতে রূপান্তর করার জন্য ব্যবহার করা হয়। বিভিন্ন ধরনের ফলাফল পাওয়ার জন্য আমরা এই 'qcut()' পদ্ধতিতে বিভিন্ন ধরনের প্যারামিটার যোগ করতে পারি। এই টিউটোরিয়ালটি 'qcut()' পদ্ধতি সম্পর্কে, এবং আমরা এখানে 'qcut()' পদ্ধতিটি সম্পূর্ণভাবে ব্যাখ্যা করব। এই টিউটোরিয়ালের 'পান্ডাস'-এ 'qcut()' ফাংশনের সাহায্যে আমরা কীভাবে ডেটা বিনিং করব তা আমরা আপনাকে ব্যাখ্যা করব।'

উদাহরণ # 01

আমরা এই কোডগুলিতে 'qcut()' পদ্ধতি প্রয়োগ করব, এবং আমরা এই কোডগুলি 'Spyder' অ্যাপে করব। যখন আমাদের 'পান্ডা' এর সাথে কাজ করতে হয়, আমরা তখনই এর ফাংশনগুলি অ্যাক্সেস করতে পারি যখন আমরা আমাদের কোডগুলিতে 'পান্ডা' লাইব্রেরি আমদানি করি। প্রথমে, আমরা 'আমদানি' রাখি এবং তারপরে আমরা 'পান্ডাকে পিডি হিসাবে' লিখি। এখন, আমাদের 'qcut()' পদ্ধতি প্রয়োগ করতে হবে, তাই এর জন্য, আমরা এখানে DataFrame তৈরি করছি। আমরা 'R_ID, R_name, এবং R_age' এর কলাম হিসাবে 'R_ID, R_name, এবং R_age' সমন্বিত 'Random_df' তৈরি করি, এবং 'R_ID' তেও আমরা 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_5' রাখি। R_61, R_73, এবং R_81”। তারপরে আমরা 'R_name' কলামে 'থিওডোর, টেডি, নোয়া, লিও, আইভি, হেনরি, ফ্রেডি, এভলিন, আভা, উইলো, থিও, অস্কার, জ্যাকব এবং হার্পার' যোগ করি। এর পরে, আমরা 'R_age' কলামে '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37, এবং 40' সন্নিবেশ করি। এখন, আমরা 'print()' ব্যবহার করি, যার মধ্যে 'Random_df' রয়েছে এবং এটি 'Random_df' ডেটাফ্রেম রেন্ডার করতে সাহায্য করবে। আমরা সবেমাত্র ডেটাফ্রেম তৈরি করেছি এবং এখনও 'qcut()' পদ্ধতি প্রয়োগ করিনি।








'রান' আইকন কোডগুলি কার্যকর করতে আমাদের সাহায্য করে। যখন আমরা এই 'রান' আইকনটি চাপি, তখন এই কোডের ফলাফল 'স্পাইডার' অ্যাপের টার্মিনালে প্রদর্শিত হয়। 'Random_df' DataFarme কোডের ফলাফল হিসাবে দেখানো হয়েছে যা আমরা এই উদাহরণে লিখেছি। এখন, আমরা 'qcut()' পদ্ধতি প্রয়োগ করব এবং এর ফলাফলও দেখাব।




আমরা এখানে ডাটা বিনিং করছি। আমরা 'R_age' কলামটি বাইন করছি এবং 'pd.qcut()' পদ্ধতি স্থাপন করছি, যা 'পান্ডাস' এর পদ্ধতি যা ডেটা বিনিংয়ে সহায়তা করে। এই পদ্ধতিতে, আমরা ডেটাফ্রেমের নাম এবং কলামের নামও সন্নিবেশ করি যার উপর আমরা এই 'qcut()' পদ্ধতিটি প্রয়োগ করতে চাই। এছাড়াও আমরা “q”-এর মান “5”-এ সেট করেছি এবং এটি “R_age” কলামের ডেটা পাঁচটি সমান কোয়ান্টাইলে কাটার জন্য ব্যবহার করা হয়। আমরা 'প্রিন্ট()' এ 'qcut()' পদ্ধতি যোগ করি, তাই এটি টার্মিনালে বিনিং ডেটাও প্রদর্শন করবে।




এখানে, বিনিংয়ের পরে ডেটা প্রদর্শিত হয় এবং এটি 'R_age' কে পাঁচটি কোয়ান্টাইলে কেটে দেয়। এটি সেই বিভাগগুলিও প্রদর্শন করে যেখানে 'R_age' কলাম ডেটা বিন করা হয়েছে৷ শ্রেণীবদ্ধ সিরিজ 'R_age' বিনগুলিকে উপস্থাপন করে।






আমরা এই বিনগুলির জন্য লেবেল সামঞ্জস্য করতে পারি। আমরা এই বিন লেবেলগুলি যোগ করি যাতে তাদের ব্যাখ্যা করা সহজ হয়। আমরা একটি 'R_age_qcut' কলাম যোগ করি 'Random_df'-এ যেখানে আমরা এই বিনগুলির লেবেল যুক্ত করি। আমরা আবার তাদের লেবেল করার জন্য “pd.qcut()” পদ্ধতি ব্যবহার করি। আমরা লেবেল যোগ করি যা 'ছোট, খুব কম নয়, মাঝারি, উচ্চ এবং সর্বোচ্চ'। তারপরে আমরা আবার 'প্রিন্ট()' এ 'Random_df' রাখি।


সমস্ত বিন এই ফলাফলে লেবেল এবং উপস্থাপন করা হয়. এই ডেটাফ্রেমে 'R_age_qcut' কলামটি প্রদর্শিত হয় যেখানে লেবেলযুক্ত বিনগুলি দেখানো হয়।



উদাহরণ # 02

ডেটাফ্রেম তৈরি করার জন্য, আমরা প্রথমে 'গ্রেড' যোগ করি যা হল '3, 6, 8, 7, 2, 5, 1, 9, 4, 7, এবং 8'। তারপর, আমরা 'ছাত্রদের' মধ্যে ছাত্রদের নাম যোগ করি, যেগুলি হল 'পিটার, ব্রমলি, জেমস, ডেভিড, অ্যালিস, জন, জেমস, স্যামুয়েল, উইলিয়াম, হাওয়ার্ড এবং আলেকজান্ডার'। তারপরে আমরা 'Grades_df' তৈরি করি যেখানে আমরা 'pd.DataFrame()' পদ্ধতি যুক্ত করেছি এবং এই পদ্ধতিতে, আমরা 'Std_name' রাখি যা কলামের নাম হিসাবে প্রদর্শিত হবে এবং এতে 'ছাত্রদের' মান নির্ধারণ করি। তারপরে আমরা ডেটাফ্রেমের কলামের নাম হিসাবে 'স্টুডেন্টস_গ্রেড' সেট করি এবং এখানে 'গ্রেড' বরাদ্দ করি, যা আমরা উপরে তৈরি করেছি। এর পরে, আমাদের কাছে 'print()' আছে যেখানে আমরা মুদ্রণের জন্য 'Grades_df' যোগ করি।


এই কোডের ফলাফলে দুটি কলাম সম্বলিত ডেটাফ্রেম প্রদর্শিত হয়। এখন, আমরা এই কলামের মানগুলির ডেটা বিনিং করার জন্য 'স্টুডেন্টস_গ্রেড' কলামে 'qcut()' পদ্ধতি প্রয়োগ করব।


আমরা এখানে একটি নতুন কলাম 'গ্রেড' যোগ করেছি যেখানে আমরা 'স্টুডেন্টস_গ্রেড' কলামে 'pd.qcut()' প্রয়োগ করেছি এবং এছাড়াও, আমরা 'q' এর মানটির জন্য '4' ব্যবহার করেছি, তাই এটি কেটে যাবে চারটি সমান পরিমাণে ডেটা। এর পরে, আমরা এই কোয়ান্টাইলগুলিকে এখানে “q”-তে মান স্থাপন করে নির্দিষ্ট করি যা হল “0, .4, .8 এবং 1”। তারপর, আমরা এটিও প্রদর্শন করি। এখন, আমরা এই বিন করা ডেটা লেবেল করছি, এবং আমরা এখানে যে লেবেলগুলি যোগ করব তা হল 'D, C, A, এবং B' এবং এছাড়াও 'গ্রেড' কলামে সংরক্ষণ করা হয়।


এখানে, বিনিংয়ের পরে ডেটা এখানে 'গ্রেড' কলামে প্রদর্শিত হয় এবং এটি 'স্টুডেন্টস_গ্রেড' কলামের ডেটাকে চারটি সমান কোয়ান্টাইলে কেটে দেয়।


'qcut()' পদ্ধতি প্রয়োগ করার পরে এবং কোয়ান্টাইলগুলি নির্দিষ্ট করার পরে আমরা যে ডেটাফ্রেমটি পাই তা এই ফলাফলে প্রদর্শিত হয়।


এখন, এই বিনগুলিতে লেবেলগুলি যোগ করার পরেও 'গ্রেড' কলামে এই ফলাফলে রেন্ডার করা হয় এবং আপনি দেখতে পারেন যে এটি বিন মান অনুসারে লেবেলগুলি নির্ধারণ করে।

উদাহরণ # 03

এছাড়াও আমরা CSV ফাইলের ডেটাতে “qcut()” পদ্ধতি প্রয়োগ করতে পারি। এর জন্য, আমরা প্রথমে “read_csv()” পদ্ধতির সাহায্যে CSV ফাইলের ডেটা পড়ি। আমরা 'office2.csv' ফাইলের ডেটা পড়ছি, এবং তারপরে এই ফাইলের ডেটা 'Office_df' এ স্থাপন করা হয়েছে। এই পদ্ধতিটি 'office2' ফাইলের ডেটা ডেটাফ্রেমে রূপান্তর করবে এবং 'Office_df' এ সংরক্ষণ করবে। তারপর, আমরা “প্রিন্ট()”-এ “Office_df” বসিয়ে এই ডেটাও দেখাই। এর পরে, আমরা “Units_qcut” নামে একটি নতুন কলাম যোগ করি, যেখানে আমরা “ইউনিট” কলামে “pd.qcut()” ফাংশন প্রয়োগ করি।

উপরন্তু, আমরা 'q' ভেরিয়েবলের মান '5' এ সেট করেছি, যা ডেটাকে পাঁচটি সমান কোয়ান্টাইলে ভাগ করবে। ডেটা, 5টি সমান কোয়ান্টাইলে কাটার পরে, 'Units_qcut' কলামে সংরক্ষণ করা হয় এবং এই কলামটি 'Office_df' এবং 'Office_df'-এ আবার 'print()' ব্যবহার করে রেন্ডার করা হয়। আমরা এখন এই বিন করা ডেটা লেবেল করছি, 'qcut()' পদ্ধতিতে লেবেলগুলি যোগ করছি, যেগুলি হল 'ইউনিট 1, ইউনিট 2, ইউনিট 3, ইউনিট 4 এবং ইউনিট 5' এবং সেগুলিকে 'লেবেল' কলামে সংরক্ষণ করছি . আমরা এই ডেটাফ্রেমটিও রেন্ডার করি যেখানে 'লেবেল' কলাম যোগ করা হয়েছে।


'office2.csv' ফাইলটি পড়ার পর আমরা যে ডেটা পাই তা এখানে ডেটাফ্রেম আকারে রেন্ডার করা হয়েছে। তারপর 'Units_qcut' কলাম যোগ করা হয়, যেখানে 'ইউনিট' কলামের বিন করা মানগুলি প্রদর্শিত হয়। এর পরে, 'লেবেল' কলামটিও যোগ করা হয়, যা এই বিন করা মানগুলিতে লেবেলগুলিকে বরাদ্দ করে৷ এটি 'পান্ডাস'-এ 'qcut()' পদ্ধতি ব্যবহার করে করা হয়।

উপসংহার

আমরা এই টিউটোরিয়ালে 'qcut()' পদ্ধতিটি বিস্তারিতভাবে ব্যাখ্যা করেছি যা 'পান্ডাস'-এ ডেটা বিনিং করতে সাহায্য করে। আমরা আলোচনা করেছি যে ডেটা কোয়ান্টাইল 'q' মান অনুযায়ী বিন করা হয়েছে যা আমরা 'qcut()' পদ্ধতিতে যোগ করেছি, এবং আমরা এই বিন করা ডেটাতে লেবেলগুলিকে সামঞ্জস্য করেছি। আমরা 'qcut()' পদ্ধতিটি অন্বেষণ করেছি এবং ডেটাফ্রেমের কলামগুলিতে এই পদ্ধতিটি প্রয়োগ করেছি এবং এছাড়াও আমরা CSV ফাইলগুলি পড়ার পরে CSV ফাইলের ডেটাতে এই 'qcut()' পদ্ধতিটি প্রয়োগ করেছি। 'qcut()' পদ্ধতির ফলাফল পরিষ্কারভাবে ব্যাখ্যা করতে এবং দেখানোর জন্য আমরা এই টিউটোরিয়ালে সমস্ত কোডের ফলাফল উপস্থাপন করেছি।