نگاه دقیق‌تر به سیستم های رتبه بندی گوگل

mhSarmad
9 دقیقه

اسناد منتشر شده از سوی وزارت دادگستری آمریکا، بخش هایی از شهادت و گفتگوی یکی از مهندسان گوگل را نشان می دهد. این شهادت، تصویری بسیار ارزشمند از نحوه عملکرد سیستم های رتبه بندی گوگل ارائه می دهد. در این اسناد، نحوه محاسبه کیفیت صفحات، نقش سیگنال محبوبیت و استفاده از داده های مرورگر کروم مطرح شده است.

این اسناد به شکل کلی و سطح بالا به برخی سیگنال های رتبه بندی اشاره دارند. هرچند جزئیات فنی به طور کامل بیان نشده، اما دیدی کلی از پیچیدگی الگوریتم ها به ما می دهد.

سیگنال های دستی و نقش آن ها در رتبه بندی

در ابتدای سند به سیگنال های دستی اشاره شده است. این سیگنال ها با استفاده از داده هایی مانند کلیک کاربران و اطلاعات رتبه دهندگان انسانی تولید می شوند. الگوریتم ها به صورت دستی توسط مهندسان جستجو تنظیم می شوند. منظور از دستی بودن این نیست که هر صفحه به صورت دستی رتبه بندی می شود، بلکه یعنی الگوریتم ها توسط انسان ها تنظیم و بهینه شده اند.

سیگنال های ABC در گوگل

در این سند به سه نوع سیگنال با عنوان ABC اشاره شده است:

A برای لینک هایی که از صفحات دیگر به صفحه هدف داده شده اند
B برای محتوای بدنه که شامل کلمات جستجو شده در متن صفحه است
C برای کلیک ها که زمان ماندن کاربر در صفحه را قبل از بازگشت به نتایج اندازه می گیرد

این سه سیگنال، فقط بخشی از فرآیند رتبه بندی هستند. الگوریتم های گوگل بسیار گسترده ترند و صدها یا حتی هزاران سیگنال دیگر را در مراحل مختلف شامل می شوند. مثل ایندکس شدن، تحلیل لینک ها، فیلترهای ضد اسپم، شخصی سازی، رتبه بندی مجدد و موارد دیگر. مثلا لیز رید به سیستم های اصلی مرتبط با موضوع اشاره کرده و مارتین اسپلیت نیز درباره تفسیر صفحات وب صحبت کرده است.

در مورد این سیگنال ها آمده است:

سیگنال های ABC عناصر کلیدی برای سنجش تناسب موضوعی (Topicality) هستند. تناسب موضوعی نشان می دهد که یک سند چقدر به پرسش جستجو مرتبط است. این تناسب با ترکیب این سه سیگنال به صورت دستی انجام می شود.

مهندسی پیچیده رتبه بندی صفحات

در بخش دیگری از این سند آمده است:

توسعه الگوریتم رتبه بندی، به ویژه تناسب موضوعی، شامل حل مسائل پیچیده ریاضی است. در هر پروژه، تیمی از مهندسان به صورت مداوم روی این مسائل کار می کنند.

دلیل اصلی دستی بودن اغلب سیگنال ها، امکان رفع مشکل هنگام بروز خطاست. گوگل می خواهد سیگنال ها شفاف باشند تا در صورت خطا، قابل اصلاح باشند. در ادامه، الگوریتم های دستی گوگل با روش خودکار مایکروسافت مقایسه شده اند و گفته شده که در صورت خرابی، عیب یابی در سیستم بینگ سخت تر است.

ارتباط بین کیفیت صفحه و تناسب با جستجو

یکی از نکات جالب که در این سند آمده این است که کیفیت صفحه مستقل از پرسش کاربر است. وقتی یک صفحه به عنوان باکیفیت شناخته شود، در تمام جستجوهای مرتبط معتبر تلقی می شود. به همین دلیل این نمره کیفیت ثابت در نظر گرفته می شود و برای هر کوئری دوباره محاسبه نمی شود.

البته برخی سیگنال های مرتبط با جستجو می توانند رتبه نهایی را تغییر دهند. این موضوع نشان می دهد که تناسب با جستجو نقش مهمی در تصمیم گیری نهایی دارد.

در بخشی از سند آمده:

کیفیت، به طور کلی در تمام پرسش ها ثابت است و به یک کوئری خاص وابسته نیست.
اما در بعضی موارد، سیگنال کیفیت شامل اطلاعاتی از خود پرسش نیز می شود. مثلا اگر یک سایت باکیفیت باشد ولی اطلاعات کلی داشته باشد، گوگل ممکن است در پاسخ به یک جستجوی تخصصی، صفحه ای فنی تر را پیشنهاد دهد.

در ادامه بیان شده که نمره کیفیت هنوز هم یکی از مهم ترین عوامل است. حتی گفته شده که بیشترین شکایات کاربران نیز به کیفیت پایین صفحات برمی گردد.

هوش مصنوعی و تأثیر آن بر شکایات کیفیت

مهندس گوگل در ادامه اشاره می کند که کاربران هنوز از کیفیت پایین برخی نتایج شکایت دارند. او می گوید ورود هوش مصنوعی، اوضاع را بدتر کرده است.

در مورد کیفیت گفته شده:

این موضوع همیشه چالش برانگیز بوده و همچنان هم هست. چون نمره کیفیت (Q) تا حد زیادی ثابت است و بیشتر به خود سایت مربوط است، نه به جستجو. به همین دلیل هم امکان مهندسی معکوس آن وجود دارد.

eDeepRank الگوریتمی برای درک بهتر رتبه بندی LLM

یکی دیگر از الگوریتم ها، eDeepRank نام دارد. این الگوریتم بر پایه مدل زبانی BERT طراحی شده است.

در توضیح آن آمده:

eDeepRank یک سیستم LLM است که از BERT و ساختار ترنسفورمرها استفاده می کند. هدف این الگوریتم، تجزیه سیگنال های LLM به اجزای شفاف تر است.

این کار باعث می شود که مهندسان گوگل بتوانند بفهمند چرا مدل زبانی خاصی، یک صفحه را در رتبه خاصی قرار داده است.

الگوریتم PageRank و ارتباط آن با فاصله لینک

PageRank اولین الگوریتم معروف گوگل برای رتبه بندی بود که حالا بروزرسانی شده است. این الگوریتم از مفهوم فاصله لینک برای سنجش اعتبار استفاده می کند. یعنی با بررسی فاصله لینک ها از سایت های معتبر (که به آن ها سایت بذر یا Seed Site گفته می شود)، میزان اعتماد به سایت های دیگر را مشخص می کند.

سایت هایی که به این سایت های بذر نزدیک تر هستند معتبرتر در نظر گرفته می شوند. و بالعکس سایت هایی که فاصله بیشتری دارند، کم اعتبارتر هستند.

در این مورد آمده:

PageRank یک سیگنال منفرد است که فاصله از منبع معتبر را مشخص می کند و به عنوان ورودی برای نمره کیفیت استفاده می شود.

سیگنال مرموز محبوبیت مبتنی بر داده های کروم

یکی از سیگنال هایی که نام آن در سند حذف شده، به محبوبیت مربوط می شود. در توضیح آن فقط آمده:

سیگنال محبوبیت که از داده های مرورگر کروم استفاده می کند.

این جمله کوتاه تاییدی بر برخی گمانه زنی ها درباره افشای API های کروم است. برخی از کارشناسان سئو معتقدند این API ها بیشتر برای توسعه دهندگان طراحی شده اند و اطلاعاتی مثل Core Web Vitals را نشان می دهند.

اما برخی هم بر این باورند که شاید داده های دیگری از کروم هم در رتبه بندی نقش داشته باشند.

در ادامه مهندس گوگل به افشای دیگری از مستندات داخلی گوگل اشاره می کند. او می گوید این اسناد برخی اجزای واقعی سیستم رتبه بندی را نشان می دهند. اما اطلاعات موجود در این اسناد به تنهایی برای مهندسی معکوس کافی نیست.

نگاه نهایی به سند منتشر شده

این سند، خلاصه ای از شهادت مهندس گوگل در پرونده وزارت دادگستری آمریکاست. محتوای آن دیدی کلی از ساختار رتبه بندی گوگل به ما می دهد.

در این سند نقش سیگنال های دستی، اهمیت نمره کیفیت صفحه و وجود یک سیگنال نامشخص از داده های کروم بررسی شده است.

در مجموع این اطلاعات دیدی نادر از نحوه طراحی سیگنال هایی مثل تناسب موضوعی، اعتماد، رفتار کلیک و الگوریتم های مبتنی بر مدل زبانی به ما می دهند. همچنین نشان می دهد که گوگل چطور تلاش می کند الگوریتم های خود را قابل فهم تر و قابل بررسی تر نگه دارد تا کنترل بیشتری روی نتایج داشته باشد.

انتشار در شبکه‌های اجتماعی
بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *