You are currently viewing সার্চ ইঞ্জিন কিভাবে কাজ করে? ইনডেক্সিং, ক্রলিং, এবং র‍্যাঙ্কিং

সার্চ ইঞ্জিনের হরেক রকম ফিচার আমাদের জীবনকে আরো সহজ করে দিয়েছে তা আর বলার অপেক্ষা রাখে না। আবহাওয়া চেক করা থেকে শুরু করে মোবাইলের এলার্ম সেট করানো অব্দি সব জায়গায় সার্চ ইঞ্জিনের ব্যবহারের ছড়াছড়ি। সারা বিশ্বে মানুষ প্রতি মিনিটে গড়ে ৩.৮ মিলিয়ন সার্চ করে থাকেন শুধু মাত্র গুগলে। দিনের হিসেবে সেটি গিয়ে ঠেকে ৫.৬ বিলিয়নে। একটা সার্চ ইঞ্জিনকে কি পরিমান ট্র্যাফিক এবং চ্যলেঞ্জের সম্মুখীন হতে হয় প্রতিনিয়ত, তা সার্চট্রিবিউনের পরিসংখ্যান থেকে অনুমান করা যায়। কিন্তু এই সার্চ ইঞ্জিন কিভাবে কাজ করে তা কি আমরা কখনো ভেবে দেখেছি?

আজকের পোস্টে আমরা জানতে চেষ্টা করবো, “কিভাবে সার্চ ইঞ্জিন কাজ করে”? তবে তার আগে পাঠকদের বুঝার সুবিধার্থে আমরা কিছু গুরুত্বপূর্ন টার্ম গুলো নিয়ে আলোচনা করবো যেগুলো তারা অনেক সময় বুঝে উঠতে পারেন না। আমাদের  লেখার টপিক গুলো সুন্দর করে সাজানো আছে। আপনার যদি আগে থেকে কোন বিষয় নিয়ে জানাশোনা থাকে, তাহলে আপনি সহজে তা এড়িয়ে যেতে পারবেন। তাই আশা করি বিরক্তির কোন কারণ থাকবে না। আমরা আমাদের প্রতিটি অডিয়েন্সের কথা বিবেচনা করে কন্টেন্ট লিখে থাকি। সার্চ ইঞ্জিন হিসেবে সবাই গুগলকে সার্বজনীন ধরে থাকে। তাই আমাদের আলোচনায়ও গুগল প্রাধান্য পাবে। 

সার্চ ইঞ্জিন কিভাবে কাজ করে?

সার্চ ইঞ্জিনের তিনটি প্রাইমারি ফাংশন রয়েছে। সেগুলো  হলো- ক্রল, ইন্ডেক্স, এবং রাঙ্ক। প্রথমে কোন তথ্য খুঁজতে ব্যবহার করে ক্রলিং সিস্টেম, খুঁজতে যায় যেখানে আগে থেকে ইন্ডেক্স করা আছে সেখানে। তারপর Googlbot নির্ধারণ করে থাকে, কাকে প্রথমে দেখাতে হবে আর কাকে পরে দেখাতে হবে। আরেকটি জিনিজ ক্লিয়ার করে নেয়া ভাল, পাঠকের জানার সুবিধার্থে বলছি। প্রত্যেক সার্চ ইঞ্জিনের নিজস্ব কিছু ক্রলিং রোবট থাকে। এরা পূর্ব নির্দেশিত রাঙ্কিং ফ্যাক্টর দিয়ে কন্টেন্ট বিবেচনা করে রাঙ্ক করে। তেমনই একটি বোট হচ্ছে গুগল বোট। যেমন- মজ ডট কমের রয়েছে রজারবট, বিং এর রয়েছে বিংবট। 

কিছু কিছু টার্ম পাঠক কে বিভ্রান্ত করছে তা আমরা ধারণা করতে পারছি। সেই জন্য আমরা সব গুলো নিয়ে বিস্তারিত আলোচানায় ফিরব। 

সার্চ ইঞ্জিন ক্রলিং কি?

ক্রলের সরাসরি বাংলা অর্থ – হামাগুড়ি দেওয়া। সার্চ ইঞ্জিনের ক্ষেত্রেও শব্দটার মানে অনেকটা একই অর্থাৎ আপনি যখন কোন কি-ওয়ার্ড সার্চ করেন তখন সর্ব প্রথম গুগল তার আগে থেকে ইনডেক্স করা তথ্য থেকে খুঁজতে থাকে কোন রেজাল্ট টি আপনার জন্য ভালো হবে। এই খোজা-খুজির প্রসেসটা কে বলা হয় ক্রলিং। আর যে ক্রল করে তাকে বলা হয় ‘ক্রলার’ অনেক ক্ষেত্রে বলা হয়ে থাকে ‘স্পাইডার’। গুগলের হয়ে যেটি ক্রল করে তাকে বলা হয় ‘গুগল বট’।  ক্রলিং যেকোন কিছু হতে পারে। সেটি নির্ভর করে আপনার সার্চ এর উপর।

গুগল বট প্রথমে Fetching (তাড়াতাড়ি সার্চ করার পদ্ধতি) করে কিছু ওয়েব পেইজ কে টার্গেট করে।  বিশেষ করে যাদের URL গুলো একেবারে নতুন। তাদের কে প্রথমে চিহ্নিত করে জমা করে ক্যাফেইনে। ক্যাফেইন হচ্ছে বিশাল একটি ইউআরএল এর ভান্ডার যেখানে নতুন নতুন URL  গুলো স্টোর করে রাখা হয়। গুগল ক্যাফেইন সৃষ্টি হয় ২০১০ সালে। থাক সে গল্প নাহয় আরেক দিন বলা যাবে। সব একসাথে বলে পাঠকের বিরক্তির কারন হতে চাই না। ক্যাফেইনে আগে থেকে তাদের URL গুলো সেইভ করে রাখার ফলে তাদের সার্চ রেজাল্ট দেখাতে বেশি সময় নেয় না। এজন্য আগে থেকে ক্রল করে ক্যাফেইনে সেভ করে রাখা হয়। 

সার্চ ইঞ্জিন ইনডেক্সিং কি? 

সার্চ ইঞ্জিন ইনডেক্সিং হচ্ছে সার্চ ইঞ্জিন গুলো আগে থেকে তাদের সার্চ রেজাল্ট দেখানোর সুবিধার্থে স্টোর করে রাখার প্রকৃয়া। বিষয়টা অনেকটা লাইব্রেরি তে বই সাজানোর মত। আগে থেকে বই সাজিয়ে রাখলে কোথায় কোন বই আছে জানতে যেমন সুবিধা হয়, তেমনই সার্চ ইঞ্জিন আগে থেকে ইনডেক্স করে রাখলে তাদের পরবর্তীতে রেজাল্ট দেখাতে খুব সুবিধে হয়। এ জন্য প্রত্যেক সার্চ ইঞ্জিন আগে থেকে ইনডেক্স করে রাখে। আশা করি পাঠক বুঝতে পেরেছেন সার্চ ইঞ্জিন ইনডেক্স কি। 

সার্চ ইঞ্জিন র‍্যঙ্কিং কি? 

যখন কোন ইউজার কোন কি-ওয়ার্ড সার্চ করে থাকেন, তখন সার্চ ইঞ্জিন তার কি-ওয়ার্ড অনুযায়ী পরিমার্জন, পরিবর্ধন করে সবচেয়ে রিলিভেন্ট( প্রাসঙ্গিক) ডেটা দিয়ে থাকে। গুগল সহ আরো যত সার্চ ইঞ্জিন রয়েছে, তাদের বেশ কিছু নিয়ম কানুন আছে কি কি করলে তারা আপনার কন্টেন্ট কে সবার প্রথমে শো করাবে। আর এই নিয়ম কানুন গুলোকে বলা হয়ে থাকে র‍্যাঙ্কিং ফ্যাক্টর। সাধারণত গুগলের ২১৭ টির মত র‍্যাঙ্কিং ফ্যাক্টর রয়েছে। তবে এটি খুবই পরিবর্তনশীল। কখনো কম আবার কখনো বেশি। তবে আমার ক্ষেত্রে সবচেয়ে সুবিধা জনক অবস্থানে থেকে বলতে গেলে বলা যায়- ২০০ এর অধিক র‍্যাঙ্কিং ফ্যাক্টর রয়েছে। আর এই পদ্ধতির মধ্য দিয়ে যাওয়ার পর কে প্রথমে শো করবে আর, কে ক্রমান্বয়ে শেষের দিকে শো করবে তার পুরো প্রকৃয়া যেটির মাধ্যমে নিয়ন্ত্রিত হয় তাকে বলা হয় র‍্যাঙ্কিং ফ্যাক্টর। আরেকটি জিনিস বলা যায় এক্ষেত্রে যে-

যত প্রথম দিকে সার্চ ইঞ্জিন গুলো রেজাল্ট শো করাবে, তার মানে হচ্ছে গুগল আপনার জন্য সবচেয়ে রিলিভেন্ট রেজাল্ট সেটিকেই ভেবে থাকে। 

আমাদের পরবর্তী কোন এক পোস্টে আমরা টপ কিছু র‍্যাঙ্কিং ফ্যাক্টর নিয়ে আলোচনা করবো। যারা এসইও নিয়ে বেশি ইন্টারেস্টেড, তাদের জন্য ভাল কিছু অপেক্ষা করছে। 

কিভাবে সার্চ ইঞ্জিন ইনফরমেশন অর্গানাইজ করে?

কোন কিছু সার্চ করার সার্চ ইঞ্জিন গুলো আপনার জন্য ইনফর্মেশন আগে থেকেই রেডি করে ইনডেক্স করে রাখে। আমাদের সবার সুবিধার্থে আমরা আজকের পোস্টটি গুগলকে ফলো করেই সাজিয়েছি। অর্থাৎ গুগল কে সার্চ ইঞ্জিন ধরে সেই অনুযায়ী আমরা ইনফরমেশন শেয়ার করেছি। যদিও এটি আগে থেকেই বলেছি, আবারো বলে রাখছি। অনেকে থাকতে পারেন শুরু থেকে না পড়ে সরাসরি এখানে চলে এসেছেন।  তাদের কে উদ্দেশ্য করে আবার জানিয়ে রাখলাম। গুগলের তথ্য মতে তারা প্রায় ১০০ বিলিয়নের ও অধিক ওয়েব পেইজ ক্রল করে আপনার জন্য সার্চ রেজাল্ট গুলো আগে থেকে অর্গানাইজ করে রাখে। 

সার্চ এর মৌলিক বিষয়

ক্রলিং প্রসেসটি শুরু হয়ে থাকে -আগে থেকে লিস্ট করা ওয়েব এড্রেস থেকে এবং ওয়েব সাইট মালিকদের দেওয়া সাইটম্যাপের মাধ্যমে। যারা নতুন তাদের জন্য আরেকটি ইনফরমেশন এড করার প্রয়োজন মনে করছি। সাইটম্যাপ হচ্ছে- অনেকটা ফাইল ম্যানেজারের মত। আপনার মোবাইলে যে রকম ফাইল ম্যানেজারে সেট করা থাকে -কোথায় ভিডিও ফাইল, কোথায় অডিও ফাইল। তেমনি ওয়েব সাইটের ফাইল এর নাম হচ্ছে সাইটম্যাপ। এটির মাধমে সার্চ ইঞ্জিন গুলো আপনার ওয়েব সাইটের কোথায় কোন ডাটা রয়েছে, কোন কোন পোস্ট রয়েছে তার একটি সাম্যক ধারণা পেয়ে থাকে। যা পরবর্তীতে কি-ওয়ার্ড অনুযায়ী ম্যাচ করে সার্চ ইঞ্জিন গুলো তে দেখায়। 

পাঠক একটু মনোযোগ দিলে দেখবেন, সার্চ ইঞ্জিন গুলো আপনার ওয়েব সাইট কিংবা ওয়েব পেইজ গুলো সম্পর্কে জানার ‘মাধ্যম’ গুলোর মধ্যে অন্যতম হলো- সাইটম্যাপ। এই সাইটম্যাপের মাধ্যমে সার্চ ইঞ্জিন গুলো আপনার ওয়েবসাইটের উপর ধারণা রাখতে সক্ষম হয়। এত গুলো কথা বলার মূল উদ্দ্যেশ্য হলো- আপনার ওয়েব সাইটের কোন রকম তথ্য যদি হালনাগাদ হয়েও থাকে, সেটি জানার একমাত্র মাধ্যম হলো এই সাইট ম্যাপ। 

এর পর সার্চ ইঞ্জিন গুলো কি কি তথ্য খুঁজে নেবে তা ডিটারমাইন করে থাকে কম্পিউটার প্রোগ্রাম। সেই অনুযায়ী আপনার ওয়েব সাইটের তথ্য তারা নিয়ে থাকে। এখন আপনি যদি বলে থাকেন  আমার ওয়েব সাইটের অনেক গুরুত্ব পূর্ন কিছু তথ্য আছে। যেগুলো আমি চাই না সার্চ ইঞ্জিন রিড করুক। সেক্ষেত্রে আমার করণীয় কি? যদি আপনার মনে এই ধরণের প্রশ্ন এসে থাকে তাহলে আপনাকে আন্তরিক ধন্যবাদ। এবার আসি আপনার উত্তরে। হ্যাঁ, পাঠক আপনার জন্য অবশ্যই সার্চ ইঞ্জিন গুলো কিছু নিয়ম কানুন রেখেছে। তারা এটিকে নাম দিয়েছে – ‘robots.txt’। এই ‘robots.txt’ এর মাধ্যমে আপনি আপনার ওয়েব সাইটের পুরোপুরি নিয়ন্ত্রনে থাকবেন। অর্থাৎ আপনি সার্চ ইঞ্জিন গুলোকে বলে দিতে পারবেন আগে থেকে যে- কোন কোন ওয়েব পেইজ গুলো সার্চ করা যাবে আর কোন কোন ওয়েব পেইজ গুলো সার্চ করা যাবে না। 

আমরা যেহেতু গুগল কে আজকের আলোচনার সার্চ ইঞ্জিন হিসেবে রেখেছি- সেহেতু আরেকটি জিনিস বলে রাখা ভাল । সেটি হচ্ছে সার্চ কনসোল, যার মাধ্যমে আপনি আপনার ওয়েবসাইটের আরো কিছু গুরুত্বপূর্ন কন্ট্রোল পাবেন। 

যেমন ধরুন আপনি আপনার ওয়েব সাইটের নতুন কোন পরিবর্তন করে ফেলেছেন। বা কিছু ওয়েব পেইজ কে অন্যত্রে সরিয়ে নিয়েছেন। এক্ষেত্রে সে সমস্যা টি দাঁড়ায় সেটি হচ্ছে- গুগল যেহেতু আগে থেকে আপনার ওয়েব সাইটের একটা স্ট্রাকচার ইনডেক্স করে রেখেছে এখন যখন এই সেইম রেজাল্ট টি দেখানোর প্রয়োজন হবে তখন গুগল আগের রেজাল্ট টি খুঁজে পাবে না। কারণ হিসেবে দু’টো যুক্তি দাঁড় করানো যায়। প্রথমত, আমরা আগেই আলোচনা করেছিলাম গুগল রেজাল্ট শো করে আগে থেকে করা ইনডেক্স থেকে বা সাইটম্যাপের মাধ্যমে ধারনা নিয়ে। কিন্তু আপনি যখন আপনার সাইটম্যাপ এর স্ট্রাকচার চেঞ্জ করে ফেলেছেন সেটা তো আর গুগল জানে না। দ্বিতীয়ত, আপনি আপনার ওয়েবসাইটের পরিবর্তন করেছেন সেটা গুগল কে জানান নি। অর্থাৎ নতুন সাইট ম্যাপ সম্পর্কে গুগল কিছুই জানে না। আপনি ও গুগল কে রি-ক্রল করতে বলেন নি।

এই সকল সমস্যার ক্ষেত্রে সমাধান হচ্ছে আপনার ওয়েবসাইটের যখনি পরিবর্তন আনবেন -সেটি সাইটম্যাপের হালনাগাদের মাধ্যমে গুগল কে জানিয়ে দিয়ে হবে। বা সাইটের স্ট্যাকচারে যদি আমুল পরিবর্তন না হয় সব গুছানো থাকে, তখন এটি সমস্যা সৃষ্টি করে না। আর এই পুরো পদ্ধতি কন্ট্রোলের ক্ষেত্রে আপনি শরণাপন্ন হতে পারেন ‘গুগল সার্চ কনসোল’ এর নিকট। আরেক টি জিনিস জানিয়ে রাখা ভালো- গুগল বার বার সাইট-ম্যাপ রি-ক্রল করার জন্য আপনার থেকে অতিরিক্ত কোন পয়সা নেয় না। 

ক্রলিং এর মাধ্যমে তথ্য খুঁজে নেওয়া

পৃথিবীতে প্রতিনিয়ত ওয়েব পেইজের সংখ্যা বেড়ে চলেছে। সাইটিফাই এর তথ্য মতে প্রতিদিন দৈনিক গড়ে ৫৪,৭২০০ টি ওয়েব পেইজ সৃষ্টি হচ্ছে। বুঝতেই পারছেন পাঠক, কি পরিমানে বেড়ে চলেছে ওয়েব পেইজ তৈরির হিড়িক। অনেকটা মনে হচ্ছে- লাইব্রেরিতে প্রচুর পরিমানে বইয়ের সংখ্যা বৃদ্ধি পাচ্ছে। একবার ভাবুন তো পাঠক- হঠাৎ যদি কোন লাইব্রেরিতে প্রচুর পরিমানে বই পাঠানো হয়, তখন লাইব্রেরিয়ান সেগুলো তদারকি না করে থাকেন বা ISBN নাম্বার অনুযায়ী নথিভুক্ত না করে থাকে তাহলে কতটা বিশৃঙ্খলা সৃষ্টি হবে? থাক আর সেই বৃথা চিন্তা না করাই বুদ্ধিমানের কাজ হবে। গুগল কিন্তু আমাদের দেশের সরকারী লাইব্রেরি গুলোর লাইব্রেরিয়ান দের মত না। তারা সঠিক সময়ে সঠিক তথ্যের ইনডেক্স করে থাকে যদি না সাইট থেকে কোন ব্লক থাকে। তারা এর জন্য যে সফটওয়্যার তৈরি করেছে তার নাম দিয়েছে – “ওয়েব ক্রলারস” যার কাজ হচ্ছে প্রতিনিয়ত সৃষ্টি হওয়া পাবলিক এক্সেসেবল ওয়েব পেইজ গুলোর ইনডেক্স করা। পাবলিক এক্সেসেবল কেন বলেছি -তা নিয়ে ‘robots.txt’ নিয়ে যে দিন আলোচনা করবো সেদিন আরো ভালো করে বুঝতে পারবেন ।

এক্ষেত্রে আরো কিছু যোগ না করে থাকতে পারছি না। গুগল যখন আপনার ওয়েবসাইটের একটি স্পেসিফিক ওয়েব কে স্ক্রল করে আসে, তখন কিন্তু সে শুধু ঐ স্পেসিফিক ওয়েব পেইজ স্ক্রল করে ফিরে আসে না। বরং ঐ ওয়েব পেইজের মধ্যে যত গুলো লিংক এবং ব্যাকলিং, ইনবাউন্ড লিংক এড করা থাকে সব গুলো স্ক্রল করে নিয়ে আসে। হ্যাঁ, তবে অবশ্যই যেগুলো ‘robots.txt’ অনুমোদিত সেগুলো। এভাবে তারা তাদের “ওয়েব ক্রলারস” দিয়ে নতুন নতুন ওয়েব পেইজ গুলো স্ক্রল করে তারা তাদের ডেটাবেইজ পূর্ন করে থাকে। 

ইনফরমেশন গুলো সাজিয়ে ইন্ডেক্স করা 

এই ব্যাপারে গুগল কি বলে আমরা একটু দেখে আসি- 

When crawlers find a webpage, our systems render the content of the page, just as a browser does. We take note of key signals — from keywords to website freshness — and we keep track of it all in the Search index.

এখানে একটা গুরুত্বপূর্ন তথ্য খেয়াল করুন ‘We take note of key signals’  মানে হচ্ছে তারা আপনার ওয়েব পেইজ কে নিয়ে -নিজেরা কিছু মন্তব্য করে সংগ্রহ করছে। এবং তারা আরো বলছে সেই নোটের মধ্যে তারা কি-ওয়ার্ড থেকে শুরু করে ওয়েবসাইট এর ফ্রেশনেস পর্যন্ত সব রকম ডাটা সংগ্রহ করে থাকে, যাতে করে তারা পরবর্তীতে খুব সহজে কেউ সার্চ করলে সবচেয়ে রিলিভেন্ট রেজাল্ট দেখাতে সক্ষম হয়।  তারা আরো কঠোর ভাবে বলছে যে- ‘we keep track of it all in the search index’ অর্থাৎ তারা সব রকমের তথ্য বিবেচনায় রাখছে এবং নজরদারিতে রাখছে। 

গুগল এমন ভাবে ওয়েব স্ক্রলারস দিয়ে সার্চ করে থাকে, যেন প্রতিটি ওয়ার্ড বাই ওয়ার্ড তারা পড়ে।

আজকে আপাতত এখানেই রাখছি। আগামি পোস্টে আমরা বিস্তারিত আলোচনা করবো – ‘কিভাবে সার্চ এলগরিদম কাজ করে’ এই টপিক নিয়ে। সেই অব্দি ভালো থাকুন সুস্থ থাকুন। আর যদি আমাদের কন্টেন্ট পড়ে ভাল লাগে তাহলে কমেন্ট করে জানিয়ে দিন। আর ভালো না লাগলেও জানিয়ে দিন। কারণ আমরা মন্তব্যকে শ্রদ্ধা করি। ভালো থাকবেন পাঠক। আপনার জীবন সুন্দর হোক, সেই প্রত্যাশা নিয়ে আজকের মত বিদায় নিচ্ছি। 

Leave a Comment