ডেটার স্বাভাবিকীকরণ এমন একটি কৌশল যা দ্রুত ফলাফল পেতে সাহায্য করে কারণ মেশিনকে ছোট পরিসরের ডেটা প্রক্রিয়া করতে হয়। স্বাভাবিককরণ একটি সহজ কাজ নয় কারণ আপনার সমস্ত ফলাফল আপনার স্বাভাবিককরণ পদ্ধতির পছন্দের উপর নির্ভর করে। সুতরাং, যদি আপনি আপনার ডেটা স্বাভাবিক করার জন্য ভুল পদ্ধতি বেছে নিয়ে থাকেন, তাহলে আপনি আপনার প্রত্যাশা থেকে ভিন্ন কিছু পেতে পারেন।
নরমালাইজেশন ইমেজ, টেক্সট, নিউমেরিক ইত্যাদির মতো ডাটা টাইপের উপরও নির্ভর করে, তাই প্রতিটি ডাটা টাইপের স্বাভাবিক করার আলাদা পদ্ধতি আছে। সুতরাং, এই নিবন্ধে, আমরা সংখ্যাসূচক ডেটার উপর ফোকাস করছি।
পদ্ধতি 1: স্ক্লার্ন ব্যবহার করা
স্কলার্ন পদ্ধতি ডেটা স্বাভাবিক করার জন্য একটি খুব বিখ্যাত পদ্ধতি।
সেল নম্বরে [83] : আমরা সমস্ত প্রয়োজনীয় লাইব্রেরি, NumPy এবং sklearn আমদানি করি। আপনি দেখতে পারেন যে আমরা sklearn থেকে প্রাকপ্রসেসিং আমদানি করি। এই কারণেই এটি স্ক্লার্ন নরমালাইজেশন পদ্ধতি।
সেল নম্বরে [84] : আমরা কিছু পূর্ণসংখ্যা মান সহ একটি NumPy অ্যারে তৈরি করেছি যা একই নয়।
সেল নম্বরে [85] : আমরা প্রিপ্রোসেসিং থেকে স্বাভাবিককরণ পদ্ধতিটি বলেছিলাম এবং numpy_array পাস করেছি, যা আমরা একটি প্যারামিটার হিসাবে তৈরি করেছি।
সেল নম্বরে [86] : আমরা ফলাফল থেকে দেখতে পারি, আমাদের সমস্ত পূর্ণসংখ্যা ডেটা এখন 0 এবং 1 এর মধ্যে স্বাভাবিক করা হয়েছে।
পদ্ধতি 2: sklearn ব্যবহার করে একটি ডেটাসেটে একটি নির্দিষ্ট কলামকে স্বাভাবিক করুন
আমরা নির্দিষ্ট ডেটাসেট কলামকে স্বাভাবিক করতে পারি। এটিতে, আমরা এটি সম্পর্কে আলোচনা করতে যাচ্ছি।
সেল নম্বরে [87] : আমরা লাইব্রেরি পান্ডা এবং sklearn আমদানি করি।
সেল নম্বরে [88] : আমরা একটি ডামি CSV ফাইল তৈরি করেছি, এবং আমরা এখন সেই CSV ফাইলটি পান্ডা (read_csv) প্যাকেজের সাহায্যে লোড করছি।
সেল নম্বরে [89] : আমরা সেই CSV ফাইলটি প্রিন্ট করি যা আমরা সম্প্রতি লোড করেছি।
সেল নম্বরে [90] : আমরা np ব্যবহার করে CSV ফাইলের বিশেষ কলাম পড়ি। অ্যারে এবং ফলাফল value_array সংরক্ষণ করুন।
সেল নম্বরে [92] , আমরা preprocessing থেকে normalize পদ্ধতিকে ডেকেছি এবং value_array প্যারামিটার পাস করেছি।
পদ্ধতি 3: অ্যারেতে কলাম ব্যবহার না করে স্বাভাবিককরণে রূপান্তর করুন (স্ক্লার্ন ব্যবহার করে)
পূর্ববর্তী পদ্ধতি 2 এ, আমরা আলোচনা করেছি কিভাবে আমরা একটি নির্দিষ্ট CSV ফাইল কলামকে স্বাভাবিক করতে পারি। কিন্তু কখনও কখনও আমাদের পুরো ডেটাসেটটি স্বাভাবিক করতে হয়, তারপর আমরা নীচের পদ্ধতিটি ব্যবহার করতে পারি যেখানে আমরা পুরো ডেটাসেটটি স্বাভাবিক করি কিন্তু কলাম-ভিত্তিক (অক্ষ = 0) বরাবর। যদি আমরা অক্ষ = 1 উল্লেখ করি, তাহলে এটি সারি অনুযায়ী স্বাভাবিক করবে। অক্ষ = 1 হল ডিফল্ট মান দ্বারা।
সেল নম্বরে [93] : আমরা লাইব্রেরি পান্ডা এবং sklearn আমদানি করি।
সেল নম্বরে [94] : আমরা একটি ডামি CSV ফাইল (demo_numeric.csv) তৈরি করেছি, এবং আমরা এখন সেই CSV ফাইলটি পান্ডা (read_csv) প্যাকেজের সাহায্যে লোড করছি।
সেল নম্বরে [95] : আমরা সেই CSV ফাইলটি প্রিন্ট করি যা আমরা সম্প্রতি লোড করেছি।
সেল নম্বরে [96] : এখন, আমরা আরও একটি অতিরিক্ত প্যারামিটার অক্ষ = 0 সহ পুরো CSV ফাইলটি পাস করি, যা লাইব্রেরিকে বলে যে ব্যবহারকারী পুরো ডেটাসেট কলাম-ভিত্তিক স্বাভাবিক করতে চেয়েছিল।
সেল নম্বরে [97] , আমরা ফলাফল মুদ্রণ করি এবং 0 এবং 1 এর মধ্যে একটি মান দিয়ে ডেটা স্বাভাবিক করি।
পদ্ধতি 4: MinMaxScaler () ব্যবহার করে
স্ক্লার্ন স্বাভাবিককরণের আরেকটি পদ্ধতিও প্রদান করে, যাকে আমরা মিনম্যাক্সস্ক্যালার বলেছিলাম। এটি একটি খুব জনপ্রিয় পদ্ধতি কারণ এটি ব্যবহার করা সহজ।
সেল নম্বরে [98] : আমরা সমস্ত প্রয়োজনীয় প্যাকেজ আমদানি করি।
সেল নম্বরে [99] : আমরা একটি ডামি CSV ফাইল (demo_numeric.csv) তৈরি করেছি, এবং আমরা এখন সেই CSV ফাইলটি পান্ডা (read_csv) প্যাকেজের সাহায্যে লোড করছি।
সেল নম্বরে [100] : আমরা সেই CSV ফাইলটি প্রিন্ট করি যা আমরা সম্প্রতি লোড করেছি।
সেল নম্বরে [101] : আমরা প্রাক প্রক্রিয়াকরণ পদ্ধতি থেকে MinMaxScalar কে ডেকেছি এবং এর জন্য একটি বস্তু (min_max_Scalar) তৈরি করেছি। আমরা কোন প্যারামিটার পাস করিনি কারণ আমাদের 0 থেকে 1 এর মধ্যে ডেটা স্বাভাবিক করতে হবে। কিন্তু আপনি চাইলে আপনার মান যোগ করতে পারেন যা পরবর্তী পদ্ধতিতে দেখা যাবে।
সেল নম্বরে [102] : আমরা ফলাফলগুলি প্রদর্শনের জন্য আরও ব্যবহারের জন্য প্রথমে কলামগুলির সমস্ত নাম পড়ি। তারপরে আমরা তৈরি বস্তু min_max_Scalar থেকে fit_tranform কে কল করি এবং CSV ফাইলটি পাস করি।
সেল নম্বরে [103] : আমরা 0 থেকে 1 এর মধ্যে স্বাভাবিক ফলাফল পাই।
পদ্ধতি 5: MinMaxScaler ব্যবহার করে (feature_range = (x, y))
স্কিলার্ন আপনি যা চান তার স্বাভাবিক মান পরিবর্তন করার বিকল্পও সরবরাহ করে। ডিফল্টরূপে, তারা 0 থেকে 1 এর মধ্যে মানকে স্বাভাবিক করে তোলে।
সেল নম্বরে [104] : আমরা সমস্ত প্রয়োজনীয় প্যাকেজ আমদানি করি।
সেল নম্বরে [105] : আমরা একটি ডামি CSV ফাইল (demo_numeric.csv) তৈরি করেছি, এবং আমরা এখন সেই CSV ফাইলটি পান্ডা (read_csv) প্যাকেজের সাহায্যে লোড করছি।
সেল নম্বরে [106] : আমরা সেই CSV ফাইলটি প্রিন্ট করি যা আমরা সম্প্রতি লোড করেছি।
সেল নম্বরে [107] : আমরা প্রাক প্রক্রিয়াকরণ পদ্ধতি থেকে MinMaxScalar কে ডেকেছি এবং এর জন্য একটি বস্তু (min_max_Scalar) তৈরি করেছি। কিন্তু আমরা MinMaxScaler (feature_range) এর ভিতরে আরেকটি প্যারামিটারও পাস করি। সেই প্যারামিটার মানটি আমরা 0 থেকে 2 সেট করি। সুতরাং এখন, MinMaxScaler 0 থেকে 2 এর মধ্যে ডেটা মানগুলিকে স্বাভাবিক করবে।
সেল নম্বরে [108] : আমরা ফলাফলগুলি প্রদর্শনের জন্য আরও ব্যবহারের জন্য প্রথমে কলামগুলির সমস্ত নাম পড়ি। তারপরে আমরা তৈরি বস্তু min_max_Scalar থেকে fit_tranform কে কল করি এবং CSV ফাইলটি পাস করি।
সেল নম্বরে [109] : আমরা 0 থেকে 2 এর মধ্যে স্বাভাবিক ফলাফল পাই।
পদ্ধতি 6: সর্বোচ্চ পরম স্কেলিং ব্যবহার করা
আমরা পান্ডা ব্যবহার করে ডেটা স্বাভাবিক করতে পারি। এই বৈশিষ্ট্যগুলি ডেটা স্বাভাবিক করার ক্ষেত্রেও খুব জনপ্রিয়। সর্বাধিক পরম স্কেলিং 0 থেকে 1 এর মধ্যে মানগুলিকে স্বাভাবিক করে।
সেল নম্বরে [110] : আমরা পান্ডার লাইব্রেরি আমদানি করি।
সেল নম্বরে [111] : আমরা একটি ডামি ডেটাফ্রেম তৈরি করেছি এবং সেই ডেটাফ্রেমটি প্রিন্ট করেছি।
সেল নম্বরে [113] : আমরা প্রতিটি কলামকে কল করি এবং তারপর .max () এবং .abs () দিয়ে কলামের মান ভাগ করি।
সেল নম্বরে [114] : আমরা ফলাফল মুদ্রণ করি, এবং ফলাফল থেকে, আমরা নিশ্চিত করি যে আমাদের ডেটা 0 থেকে 1 এর মধ্যে স্বাভাবিক হয়।
পদ্ধতি 7: z- স্কোর পদ্ধতি ব্যবহার করে
পরবর্তী পদ্ধতি যা আমরা আলোচনা করতে যাচ্ছি তা হল z- স্কোর পদ্ধতি। এই পদ্ধতিটি তথ্যকে বিতরণে রূপান্তরিত করে। এই পদ্ধতিটি প্রতিটি কলামের গড় গণনা করে এবং তারপর প্রতিটি কলাম থেকে বিয়োগ করে এবং শেষ পর্যন্ত, এটি স্ট্যান্ডার্ড বিচ্যুতি দিয়ে ভাগ করে। এটি -1 এবং 1 এর মধ্যে ডেটা স্বাভাবিক করে।
সেল নম্বরে [115] : আমরা একটি ডামি ডেটাফ্রেম তৈরি করেছি এবং সেই ডেটাফ্রেমটি প্রিন্ট করেছি।
সেল নম্বরে [117] : আমরা কলামের গড় গণনা করি এবং কলাম থেকে এটি বিয়োগ করি। তারপর আমরা স্ট্যান্ডার্ড ডেভিয়েশন দিয়ে কলামের মান ভাগ করি।
সেল নম্বরে [118] : আমরা -1 এবং 1 এর মধ্যে স্বাভাবিককৃত তথ্য মুদ্রণ করি।
উপসংহার: আমরা বিভিন্ন ধরণের স্বাভাবিকীকরণ পদ্ধতি দেখেছি। তাদের মধ্যে, মেশিন লার্নিংকে সমর্থন করার কারণে স্ক্লার্ন খুব বিখ্যাত। তবে এটি ব্যবহারকারীর প্রয়োজনীয়তার উপর নির্ভর করে। কখনও কখনও ডেটা স্বাভাবিক করার জন্য পান্ডা বৈশিষ্ট্য যথেষ্ট। আমরা বলতে পারি না যে কেবলমাত্র স্বাভাবিকীকরণের পদ্ধতি রয়েছে। ডাটা নরমালাইজেশন করার অসংখ্য পদ্ধতি রয়েছে যা আপনার ডাটা টাইপের উপর নির্ভর করে যেমন ছবি, সংখ্যাসূচক, পাঠ্য ইত্যাদি।