اسناد API لیک شده گوگل | چه‌چیزهایی در مورد رتبه‌بندی گوگل میدانیم

همه‌چیز از ادعای عرفان عظیمی شروع میشه که روز یکشنبه، ۵ می به Rand Fishkin ایمیل میزنه و میگه به اسناد API داخل بخش جستجوی گوگل دسترسی داره و حتی این اسناد توسط کارمندان سابق گوگل هم تایید شده. بیش از ۲۵۰۰ صفحه اسناد API حاوی ۱۴۰۱۴ ویژگی «ویژگی‌های API» که به نظر می‌رسه از «Content API Warehouse» داخلی گوگل میاد. بر اساس تاریخچه commit این سند، این کد در ۲۷ مارس ۲۰۲۴ به GitHub آپلود شده و تا ۷ می‌۲۰۲۴ حذف نشده. این اسناد رو در ادامه بررسی میکنیم.

آپدیت: در تاریخ ۳۰ می ۲۰۲۴ گوگل صحت این اسناد را به صورت رسمی تایید کرد.

NavBoost چیست

تو سال‌های اولیه، تیم جستجوی گوگل نیاز به داده‌های کامل clickstream «هر URL که توسط یه مرورگر بازدید می‌شه» برای رصد کاربران وب و بهبود کیفیت نتایج موتور جستجوی خودش تشخیص داد.

سیستمی به نام «NavBoost» «که توسط معاون جستجو، پاندو نایاک، در شهادت پرونده وزارت دادگستری ذکر شده» در ابتدا داده‌ها رو از Toolbar PageRank گوگل جمع‌آوری کرد و تمایل به داده‌های بیشتر clickstream به عنوان انگیزه اصلی برای ایجاد مرورگر کروم «راه‌اندازی شده در سال ۲۰۰۸» عمل کرد.

در اصل یکی از ایده‌های ساخت مرورگر کروم همین جمع‌آوری دیتاها برای بهبود نتایج بود.

NavBoost میاد از تعداد جستجوهای یک کلمه کلیدی برای شناسایی میزان ترند بودن و یا تعداد کلید روی نتایج جستجو استفاده میکنه، از طرفی گوگل از تاریخچ کوکی‌ها به عنوان یه ابزار برای مبارزه با اسپم استفاده میکنه.

NavBoost همچنین امتیازی برای هدف کاربر از کوئری‌ها در نظر می‌گیره. به عنوان مثال، آستانه‌های خاصی از توجه و کلیک‌ها روی ویدیوها یا تصاویر رو برای اون کوئری و کوئری‌های مرتبط با NavBoost فعال می‌کنه.

گوگل کلیک‌ها و تعامل در جستجوها بررسی می‌کنه. به عنوان مثال، اگه بسیاری از کاربران «سروش احمدی» رو جستجو کنن و Rahdigital رو پیدا نکنن، و بلافاصله کوئری خودشون رو به «Rahdigital » تغییر بدن و روی Rahdigital.ir در نتیجه جستجو کلیک کنن، از این پس نتیجه Rahdigital با جستجوی «سروش احمدی» بیش از پیش نمایش داده میشه.

در واقع گوگل به دنبال این هست که هدف کاربر رو متوجه بشه و اون رو در رتبه‌بندی و نتایج خودش قرار بده.

داده‌های NavBoost برای ارزیابی کیفیت کلی یه سایت استفاده می‌شه که احتمالا همون‌چیزی باشه که اکثر سئوکارها بهش الگوریتم «پاندا» میگن.

سایر عوامل جزئی مانند جریمه برای نام‌های دامنه‌ای که دقیقاً با کوئری‌های جستجوی بدون برند مطابقت دارن (مثلاً mens-luxury-watches.com یا buy-mobile.net)، از همین گروه هستن، البته احتمالا روی تک‌کلمه‌ای تاثیر زیادی نداشته باشن، مثل mobile.com و …

NavBoost داده‌های کلیک رو با در نظر گرفتن سطوح کشور و ایالت/استان و همچنین استفاده از موبایل در مقابل دسکتاپ، منطقه‌بندی می‌کنه. با این حال، اگه گوگل فاقد داده برای مناطق یا user-agentهای خاص باشه، ممکنه این فرآیند رو به طور جهانی برای نتایج کوئری اعمال کنه.

در طول همه‌گیری کووید-۱۹، گوگل از لیست‌های سفید برای وب‌سایت‌هایی که می‌تونستن در نتایج جستجوهای مربوط به کووید ظاهر بشن، استفاده می‌کرد. «منظور وب‌سایت‌های مفید در مورد کرونا هست»

یعنی الگوریتم‌های اختصاصی وجود داشت که بازدید بیشتری به وب‌سایت‌های موجود در لیست سفید میداد تا بیشتر در نتایج جستجو باشن.

و البته که اینها فقط نوک کوه یخ هستن.

ادعاهای خارق‌العاده نیاز به شواهد خارق‌العاده دارن. و در حالی که برخی از این موارد با اطلاعات فاش شده در پرونده Google/DOJ همپوشانی دارن.

در مورد اسناد

این اسناد چیزهایی مثل وزن عناصر خاص در الگوریتم رتبه‌بندی جستجو رو نشون نمی‌ده و همچنین ثابت نمی‌کنه که از چه عناصری در سیستم‌های رتبه‌بندی استفاده می‌شه. اما، جزئیات باورنکردنی در مورد داده‌هایی که گوگل جمع‌آوری می‌کنه رو نشون می‌ده.

یه نمونه از اظهارات نمایندگان گوگل «مت کاتس، گری ایلیز و جان مولر» که استفاده از سیگنال‌های کاربر مبتنی بر کلیک رو در رتبه‌بندی‌ها در طول سال‌ها رد می‌کنن و البته این اسناد نشون میده گوگل به شدت بر دریافت این داده‌ها متکی هست.

حتی قبل‌تر من تلاش کردم از طریق یک کارشناس سئواز جان‌مولر سوال کنم که گوگل چه‌داده‌هایی رو از کروم دریافت میکنه و جان مولر هم سعی کرد جواب خودشو مقداری سر بسته ارائه بده.

آیا می‌توانیم به این اسناد اعتماد کنیم

قدم مهم بعدی در این فرآیند، تأیید صحت اسناد Content API Warehouse هست. برای این کار Rand Fishkin با چند تا از دوستانش که قبلا توی گوگل کار می‌کردن و الان گوگلر «کارمند با سابقه گوگل» هستن تماس میگیره و این نظارت رو از اونا میشنوه:

«من وقتی اونجا کار می‌کردم به این کد دسترسی نداشتم. اما این قطعاً به نظر قانونی میاد.»
«این همه ویژگی‌های یه API داخلی گوگل رو داره.»
«این یه API مبتنی بر جاوا هست. و یه نفر زمان زیادی رو صرف رعایت استانداردهای داخلی گوگل برای مستندسازی و نام‌گذاری کرده.»
«برای اطمینان به زمان بیشتری نیاز دارم، اما این با اسناد داخلی که من باهاش آشنا هستم مطابقت داره.»
«هیچ چیزی که من تو یه بررسی مختصر دیدم نشون نمی‌ده که این چیزی جز قانونی باشه.»

بعد، برای اطمینان بیشتر با مایک کینگ که از سئوکارهای معروف و فنی هست تماس میگیره و اونم تایید میکنه که میتونه این اسناد درست باشه.

اهمیت اسناد

وقتی من سئو رو تو سال ۱۳۸۹ شروع کردم، شفافیت بیشتری وجود داشت، مثلا میدونستیم اگه تولید محتوای خوبی داشته باشیم همه‌چیز تمامه و میتونیم کمتر از چند هفته به ورودی گوگل چند ده هزاری برسیم، با گذشت زمان رتبه گرفتن سخت‌تر شد و به نظر هم میرسه که گوگل بیشتر به جعبه سیاه تبدیل شده.

چرا که میدونید امروز فقط داشتن یک محتوای خوب یا رفع نیاز کاربر کافی نیست و باید دست به کارهایی بزنید که گوگل بارها اونهارو در صحبت‌هاش رد میکنه.

این اسناد میتونه بخشی از همین تناقضات گوگل باشه و به همین دلیل اهمیت زیادی دارن، این اهمیت در جهت یادگیری ما از گوگل و البته فشار به گوگل برای تغییرات هست.

Content API Warehouse گوگل چیست؟

وقتی به این حجم عظیم از اسناد API نگاه می‌کنیم، اولین مجموعه سوالات منطقی ممکنه این باشه: «این چیه؟ برای چی استفاده می‌شه؟ چرا اصلاً وجود داره؟»

اسناد API لیک شده گوگل | چه‌چیزهایی در مورد رتبه‌بندی گوگل میدانیم

به نظر می‌رسه که این نشت از GitHub اومده و قابل قبول‌ترین توضیح برای افشای اون با چیزی که منبع میگه مطابقت داره: این اسناد به طور ناخواسته و برای مدت کوتاهی عمومی شدن «بسیاری از لینک‌های موجود در مستندات به مخازن خصوصی GitHub و صفحات داخلی در سایت شرکتی گوگل اشاره می‌کنن که به ورود به سیستم خاص با اعتبارنامه گوگل نیاز دارن». در طول این دوره عمومی که احتمالاً تصادفی بوده و بین مارس و می‌ ۲۰۲۴ اتفاق افتاده، اسناد API در Hexdocs «که مخازن عمومی GitHub رو فهرست می‌کنه»

طبق گفته منابع که قبلاً تو گوگل کار می‌کردن، چنین اسنادی تقریباً در هر تیم گوگل وجود داره و ویژگی‌ها و ماژول‌های مختلف API رو توضیح می‌ده تا به کسانی که روی یه پروژه کار می‌کنن کمک کنه تا با عناصر داده موجود آشنا بشن. این نشت با موارد دیگه در مخازن عمومی GitHub و در مستندات Google Cloud API مطابقت داره، با استفاده از همون سبک نشانه‌گذاری، قالب‌بندی، و حتی نام‌ها و مراجع فرآیند/ماژول/ویژگی.

چقدر می‌تونیم مطمئن باشیم که گوگل از همه چیزهایی که در این اسناد API توضیح داده شده استفاده می‌کنه؟

گوگل ممکنه برخی از این‌هارو بازنشسته کرده باشه، یا توی پروژهای داخلی استفاده میکنه که هرگز عمومی نشده باشن، با این حال در این اسناد به ویژگی‌های منسوخ شده و یادداشت‌های خاصی اشاره شده که نشون می‌ده دیگه نباید از اونها استفاده بشه. این نشون می‌ده اونهایی که با چنین جزئیاتی علامت‌گذاری نشدن، تا زمان نشت در مارس ۲۰۲۴ همچنان در حال استفاده و فعال بودن.ما همچنین نمی‌تونیم با اطمینان بگیم که آیا نشت ماه مارس مربوط به آخرین نسخه این اسناد هست یا خیر. جدیدترین تاریخی که می‌تونم تو اسناد API پیدا کنم، آگوست ۲۰۲۳ هست:

متن مربوطه می‌گه:

«یک نام نمایشی یک سایت مثلا «راه‌دیجیتال» برای «rahdigital.ir». برای جزئیات بیشتر به go/site-display-name مراجعه کنید. از آگوست ۲۰۲۳، این فیلد به نفع فیلد info. [AlternativeTitlesResponse]. site_display_name_response که شامل نام‌های نمایشی سایت در سطح میزبان با اطلاعات اضافی نیز هست، منسوخ می‌شه.»

شماره ۱: Navboost و استفاده از کلیک‌ها، CTR، لینک‌های طولانی در مقابل کوتاه، و داده‌های کاربر

چندین ماژول در این اسناد به ویژگی‌هایی مثل «goodClicks»، «badClicks»، «lastLongestClicks»، impressions، squashed، unsquashed و unicorn clicks اشاره می‌کنن. اینها به Navboost و Glue گره خوردن، دو کلمه‌ای که ممکنه برای افرادی که شهادت گوگل در وزارت دادگستری رو بررسی کردن آشنا باشه. در اینجا یه بخش مرتبط از بازجویی کنت دینتزر، وکیل وزارت دادگستری، از پاندو نایاک، معاون جستجو در تیم کیفیت جستجو، آورده شده:

سوال: پس یادآوری کنید، navboost به سال ۲۰۰۵ برمی‌گرده؟
پاسخ: یه جایی تو اون محدوده. حتی ممکنه قبل از اون باشه.
سوال: و آپدیت شده. همون navboost قدیمی نیست که اون موقع بود؟
پاسخ: نه.
سوال: و یکی دیگه هم glue هست، درسته؟
پاسخ: Glue فقط یه اسم دیگه برای navboost هست که شامل همه ویژگی‌های دیگه صفحه می‌شه.
سوال: درست. می‌خواستم بعداً به اونجا برسم، اما می‌تونیم الان این کار رو انجام بدیم. Navboost نتایج وب رو انجام می‌ده، درست مثل همون چیزی که بحث کردیم، درسته؟
پاسخ: بله.
سوال: و glue همه چیزهای دیگه روی صفحه که نتایج وب نیستن رو انجام می‌ده، درسته؟
پاسخ: درسته.
سوال: اونا با هم به پیدا کردن چیزها و رتبه‌بندی چیزهایی که در نهایت در SERP ما نشون داده می‌شن کمک می‌کنن؟
پاسخ: درسته. هر دو سیگنال‌هایی برای اون هستن، بله.

یه خواننده باهوش این اسناد API متوجه می‌شه که شهادت آقای نایاک با چیزهایی که در اسناد هست مطابقت داره و از طرفی با حق ثبت اختراع گوگل هم همسو هستن.

به نظر می‌رسه که گوگل راه‌هایی برای فیلتر کردن کلیک‌هایی که نمی‌خوان در سیستم‌های رتبه‌بندیشون حساب کنن، و گنجوندن اونهایی که می‌خوان، داره. به نظر می‌رسه که اونا همچنین طول کلیک‌ها (یعنی pogo-sticking – وقتی یه جستجوگر روی یه نتیجه کلیک می‌کنه و سپس به سرعت دکمه برگشت رو کلیک می‌کنه، چون از پاسخی که پیدا کرده راضی نیست) و impressionها رو هم اندازه‌گیری می‌کنن.

قبلاً مطالب زیادی در مورد استفاده گوگل از داده‌های کلیک نوشته شده، بنابراین من این نکته رو بیشتر توضیح نمی‌دم. چیزی که مهمه اینه که گوگل ویژگی‌هایی رو برای اون اندازه‌گیری نام‌گذاری و توصیف کرده که کم هم نیستن.

شماره ۲: استفاده از clickstreamهای مرورگر کروم برای تقویت جستجوی گوگل

سال ۲۰۰۵، گوگل clickstream کامل میلیاردها کاربر اینترنتی رو می‌خواست و حالا با کروم، به اون دست پیدا کرده. اسناد API نشون می‌ده که گوگل چندین نوع معیار رو محاسبه می‌کنه که می‌تونن با استفاده از بازدیدهای کروم مربوط به صفحات فردی و کل دامنه‌ها فراخوانی بشن.

این سند که ویژگی‌های مربوط به نحوه ایجاد Sitelinks توسط گوگل رو شرح می‌ده، جالبه. یه فراخوانی به نام topUrl رو نشون می‌ده که «لیستی از URLهای برتر با بالاترین امتیاز two_level_score، یعنی chrome_trans_clicks» هست.

احتمالاً از تعداد کلیک‌ها روی صفحات در مرورگرهای کروم استفاده می‌کنه و از اون برای تعیین محبوب‌ترین/مهم‌ترین URLهای یه سایت استفاده می‌کنه که وارد محاسبه اینکه کدوم‌ها رو تو ویژگی sitelinks قرار بده می‌شه.

به عنوان مثال، در اسکرین‌شات بالا از نتایج گوگل، صفحاتی مانند «دیجیتال مارکتینگ»، «تماس‌باما» پربازدیدترین صفحات ما هستن و گوگل این رو از طریق ردیابی clickstreamهای میلیاردها کاربر کروم می‌دونه.

شماره ۳: لیست‌های سفید در سفر، کووید و سیاست

یه ماژول در مورد «سایت‌های سفر با کیفیت خوب» خوانندگان رو به این نتیجه می‌رسونه که یه لیست سفید برای گوگل در بخش سفر وجود داره «مشخص نیست که این فقط برای تب جستجوی سفر «همون travel» گوگل هست یا جستجوی وب هم شاملش میشه».

ارجاعات در چندین مکان به پرچم‌های «isCovidLocalAuthority» و «isElectionAuthority» بیشتر نشون می‌ده که گوگل در حال فهرست کردن دامنه‌های خاصیه که برای نمایش برای کوئری‌های بسیار بحث‌برانگیز یا بالقوه مشکل‌ساز مناسبه.

مثل قبل که اشاره کردیم گوگل لیستی از سایت‌هایی داره که به شکل ویژه به اون‌ها ترافیک بیشتری ارسال می‌کنه، احتمال داره که برخی از سایت‌ها مثل ویکیپدیا در همین لیست‌های سفید باشن.

شماره ۴: استفاده از بازخورد ارزیاب‌های کیفیت

گوگل مدت‌هاست که یه پلتفرم رتبه‌بندی کیفیت به نام EWOK داره «Cyrus Shepard، یه رهبر برجسته در حوزه سئو هست و چندین سال به این پلتفرم کمک کرده.

اینکه این سیگنال‌های مبتنی بر ارزیاب چقدر تأثیرگذار هستن و دقیقاً برای چه مواردی استفاده می‌شن، مشخص نیست. چیزی که جالبه این هست که نمرات و داده‌های تولید شده توسط ارزیاب‌های کیفیت EWOK ممکنه به طور مستقیم در سیستم جستجوی گوگل دخیل باشن، نه اینکه صرفاً یه مجموعه آموزشی برای آزمایش‌ها باشن. البته، ممکنه که اینها «فقط برای آزمایش» باشن، اما وقتی در اسناد لو رفته می‌گردید، می‌بینید که به طور خاص در یادداشت‌ها و جزئیات ماژول ذکر شده.

این یکی به «رتبه‌بندی ارتباط در سطح سند» که از ارزیابی‌های انجام شده از طریق EWOK به دست اومده اشاره می‌کنه. هیچ توضیح مفصلی وجود نداره، اما خیلی منطقیه که تصور کنیم این ارزیابی‌های انسانی از وب‌سایت‌ها چقدر مهم هستن.

این یکی به «رتبه‌بندی‌های انسانی (به عنوان مثال رتبه‌بندی‌ها از EWOK)» اشاره می‌کنه و خاطرنشان می‌کنه که اونها «معمولاً فقط در خطوط انتقال ارزیابی تکمیل می‌شن»، یعنی نشون می‌ده که ممکنه در درجه اول داده‌های آموزشی در این ماژول باشن.

شماره ۵: گوگل از داده‌های کلیک برای تعیین نحوه وزن‌دهی به لینک‌ها در رتبه‌بندی استفاده می‌کنه

گوگل سه سطل/طبقه برای طبقه‌بندی شاخص‌های لینک خودش داره (کیفیت پایین، متوسط، بالا). از داده‌های کلیک برای تعیین اینکه یه سند به کدوم طبقه شاخص نمودار لینک تعلق داره استفاده می‌شه. به SourceType در اینجا و TotalClicks در اینجا مراجعه کنید.»

خلاصه:

اگه Forbes.com/Cats/ هیچ کلیکی نداشته باشه، وارد فهرست کم کیفیت می‌شه و لینک نادیده گرفته می‌شه.
اگه Forbes.com/Dogs/ حجم بالایی از کلیک‌ها از دستگاه‌های قابل تأیید (همه داده‌های مربوط به کروم که قبلاً مورد بحث قرار گرفت) داشته باشه، وارد فهرست با کیفیت بالا می‌شه و لینک سیگنال‌های رتبه‌بندی رو منتقل می‌کنه.
وقتی لینکی «قابل اعتماد» شد، چون به یه فهرست رده‌بندی بالاتر تعلق داره، می‌تونه PageRank و anchorها رو منتقل کنه یا توسط سیستم‌های هرزنامه لینک فیلتر/تنزل پیدا کنه.
لینک‌های فهرست لینک‌های بی‌کیفیت به رتبه‌بندی سایت آسیبی نمی‌رسونه؛ اونها فقط نادیده گرفته می‌شن.

توضیح: منظور این هست که صفحات باکیفیت میتونن به سایر صفحات داخلی و خارجی اعتبار بدن و صفحات بی‌کیفیت به لینک‌های داخلی و خارجی ضرر و آسیب نمیرسونن و صرفا نادید گرفتن میشن.

البته از نظر سئو ممکنه اگر با اهداف فریب و در تعداد انبوه باشه باعث جریمه بشه.

برند از هر چیز دیگری مهم‌تر است

گوگل روش‌های زیادی برای شناسایی، مرتب‌سازی، رتبه‌بندی، فیلتر کردن و استفاده از entities داره. Entities شامل برندها «نام‌های تجاری، وب‌سایت‌های رسمی‌شون، حساب‌های شبکه‌های اجتماعی مرتبط و غیره» می‌شن، اونا در یه مسیر اجتناب‌ناپذیر به سمت رتبه‌بندی انحصاری و ارسال ترافیک به برندهای بزرگ و قدرتمندی که بر وب تسلط دارن، در مقابل سایت‌ها و کسب‌وکارهای کوچیک و مستقل، قرار گرفتن.

توضیح: «اهمیت گوگل به برند باعث شده که به شکل اجتناب‌ناپذیری برندهای بزرگ و معروف در صفحات اول گوگل باشن و این رقابت رو برای سایت‌ها و کسب‌و‌کارهای کوچیک سخت میکنه، به همین دلیله که مهمه روی برند خودتون کار کنید و مجزا از سایت یک برند معروف داشته باشید.»

تجربه، تخصص، اعتبار، و قابل اعتماد بودن «E-E-A-T»

تجربه، تخصص، اعتبار، و قابل اعتماد بودن «E-E-A-T» ممکنه به طور مستقیم همونطور که برخی از سئوکارها فکر می‌کنن، مهم نباشه.

تنها اشاره‌ای که الان به «مرجعیت موضوعی» «topical expertise» در این نشت اطلاعات پیدا کردیم، یه یادداشت مختصر در مورد مشارکت‌های بررسی Google Maps هست. جنبه‌های دیگه E-E-A-T یا پنهان، غیرمستقیم، به روش‌هایی که شناسایی اونها سخته برچسب‌گذاری شدن، یا به احتمال زیاد با چیزهایی که گوگل ازشون استفاده می‌کنه و بهشون اهمیت می‌ده مرتبط هستن، اما عناصر خاصی از سیستم‌های رتبه‌بندی نیستن.

همونطور که مایک در مقاله‌اش اشاره کرد، اسنادی در این نشت اطلاعات وجود داره که نشون می‌ده گوگل می‌تونه نویسندگان رو شناسایی کنه و با اونها به عنوان entities در سیستم رفتار کنه. افزایش نفوذ یه نفر به عنوان نویسنده در فضای آنلاین ممکنه در واقع منجر به مزایای رتبه‌بندی در گوگل بشه. اما اینکه دقیقاً چه چیزی در سیستم‌های رتبه‌بندی «E-E-A-T» رو تشکیل می‌ده و این عناصر چقدر قدرتمند هستن، یه سوال باز هست. شاید E-E-A-T، ۸۰ درصد پروپاگاندا و ۲۰ درصد ماهیت باشه. برندهای قدرتمند زیادی وجود دارن که در گوگل رتبه بسیار خوبی دارن و تجربه، تخصص، اعتبار یا قابل اعتماد بودن بسیار کمی دارن، همونطور که مقاله اخیر وایرال HouseFresh به طور عمیق به این موضوع می‌پردازه.

توضیح: در واقع ممکنه E-E-A-T اونقدر که مهم نشون داده میشه نباشه و البته بی‌اهمیت هم نیست اما از فاکتورهای کم‌تاثیر به حساب میاد.

محتوا و لینک‌ها وقتی که قصد کاربر در مورد navigation و الگوهایی که ایجاد می‌کنه وجود داره، ثانویه هستن.

این یه یافته از تحلیل مایک هست. به نظر می‌رسه که PageRank هنوز جایی در ایندکس کردن و رتبه‌بندی جستجو داره، اما تقریباً مطمئناً از مقاله اصلی سال ۱۹۹۸ هست. نشت این سند به نسخه‌های متعدد PageRank (rawPagerank، یه PageRank منسوخ شده که به «nearest seeds» ، firstCoveragePageRank» از زمانی که سند برای اولین بار ارائه شد اشاره می‌کنه که در طول سال‌ها ایجاد و کنار گذاشته شدن. و لینک‌های anchor text، در حالی که در این نشت اطلاعات وجود دارن، به نظر نمی‌رسه خیلی فراگیر و حیاتی باشن.

برای اکثر کسب‌وکارهای کوچیک و متوسط و سازندگان/ناشران جدیدتر، سئو احتمالاً بازده کمی داره تا زمانی که به یک شهرت قوی در بین مخاطب‌هاشون برسن، یا همون مسئله هدف جستجو رو درست کنن.

در اینجا لازمه دوباره یادمون بیاد که برندهای بزرگ از قبل برنده هستن.

اگه در تلاش هستید با برند‌های بزرگ رقابت کنید بعیده که صرفا با تولید محتوای خوب و رعایت نکات دیزاین بتونید توی گوگل رتبه‌بگیرید.

کاهش اهمیت عوامل رتبه‌بندی کلاسیک مانند PageRank، anchor، با این حال همچنان مهم هستند

به عنوان مثال، فرض کنید افراد زیادی در منطقه تهران «پارک آبی» رو جستجو می‌کنن و تا صفحه ۲، ۳ یا ۴ نتایج جستجو اسکرول می‌کنن تا زمانی که سایت رسمی خرید بلیط در تهران رو پیدا و روی اون کلیک کنن، گوگل خیلی سریع یاد می‌گیره که این چیزیه که جستجوگران این کلمات در اون منطقه می‌خوان.

اینجاست که ممکنه کلمه‌ای مثل «پارک آبی» در سایت محبوب گوگل یعنی ویکیپدیا وجود داشته باشه ولی گوگل تصمیم میگیره این‌بار ویکیپدیا رو کنار بذاره و سایت‌هایی رو لیست کنه که به خرید بلیط منجر بشن.

با بسط دادن این مثال به کل وب میتونیم بفهمیم که اگه بتونیم برای کلماتی که در گوگل جستجو میشن هدف ایجاد کنیم تا در نهایت روی سایت ما کلیک کنن احتمالا نیازی به روش‌های on-page و off-page مثل لینک‌ها و خرید رپورتاژ و … نداشته باشید.

در واقع Navboost ممکنه قوی‌ترین الگوریتم رتبه‌بندی در گوگل باشه، همونطور که الکساندر گروشِتسکی، معاون گوگل، در یه ایمیل در سال ۲۰۱۹ به سایر مدیران گوگل (از جمله دنی سالیوان و پاندو نایاک) گفت:

«ما قبلاً می‌دونیم که یه سیگنال می‌تونه از کل سیستم در یه معیار خاص قوی‌تر باشه. به عنوان مثال، من کاملاً مطمئنم که Navboost به‌تنهایی روی «کلیک‌ها و احتمالاً حتی در معیارهای دقت/کاربردی» مثبت‌تر از بقیه رتبه‌بندی‌ها بوده و هست. مهندسان خارج از تیم Navboost قبلاً از قدرت Navboost و این واقعیت که «پیروزی‌ها رو می‌دزدید» هم ناراضی بودن»

کسانی که به دنبال تایید بیشتر هستن، می‌تونن رزومه مفصل پل هار، مهندس گوگل، رو بررسی کنن که می‌گه:

«من مدیر پروژه‌های رتبه‌بندی مبتنی بر گزارش هستم. تلاش‌های تیم در حال حاضر بین چهار حوزه تقسیم شده:

۱) Navboost. این در حال حاضر یکی از قوی‌ترین سیگنال‌های رتبه‌بندی گوگل هست. کار فعلی روی اتوماسیون، ساخت داده‌های جدید navboost هست»

برای اکثر کسب‌وکارهای کوچیک، متوسط و یا جدید، سئو احتمالاً بازده کمی دارد

در اینجا لازمه دوباره یادمون بیاد که برندهای بزرگ از قبل برنده هستن.

آپدیت: در ادامه لیست ۱۲ سیگنال رتبه‌بندی مهم پیدا شده در این اسناد را مطالعه خواهید کرد.

۱. گوگل احتمالاً لینک‌هایی که از منبع مرتبط نیستند رو نادیده میگیرد

ارتباط موضوعی «Relevancy» مدت‌هاست که داغ‌ترین موضوع دنیای سئو به حساب میاد، از چیزاییه که هیچوقت اندازه‌گیریش آسون نبوده، بالاخره، ارتباط موضوعی واقعاً چی هست؟

آیا گوگل لینک‌هایی داخل محتوای غیرمرتبط رو نادیده می‌گیره؟

اسناد لو رفته قطعاً نشون می‌ده که اینطوره.

ما یه anchorMismatchDemotion واضح رو می‌بینیم که در ماژول CompressedQualitySignals بهش اشاره شده:

در حالی که ما زمینه اضافی کمی داریم، چیزی که می‌تونیم استنباط کنیم اینه که وقتی عدم تطابق وجود داره، امکان کاهش رتبه «نادیده گرفتن» لینک‌ها وجود داره. می‌تونیم فرض کنیم که این به معنای عدم تطابق بین صفحات منبع و هدف، یا صفحه منبع و دامنه هدف هست.

این عدم تطابق می‌تونه چی باشه، جز ارتباط موضوعی؟

به‌ویژه وقتی در نظر بگیریم که در همین ماژول، یه ویژگی topicEmbeddingsVersionedData رو هم می‌بینیم.

embeddings موضوعی معمولاً در پردازش زبان طبیعی «NLP» به عنوان راهی برای درک معنایی موضوعات در یه سند استفاده می‌شه.

همچنین می‌بینیم که به یه ویژگی webrefEntities در ماژول PerDocData اشاره شده.

این چیه؟ اینها entities مرتبط با یه سند هستن.

ما نمی‌تونیم دقیقاً مطمئن باشیم که گوگل چطور ارتباط موضوعی رو اندازه‌گیری می‌کنه، اما می‌تونیم کاملاً مطمئن باشیم که anchorMismatchDemotion شامل نادیده گرفتن لینک‌هایی می‌شه که از منابع مرتبط نمیان.

نتیجه؟

ارتباط موضوعی باید بزرگترین تمرکز هنگام کسب لینک باشه، که نسبت به تقریباً هر معیار یا اندازه‌گیری دیگه‌ای در اولویت قرار می‌گیره.

۲. لینک‌های مرتبط به صورت محلی «از همان کشور» احتمالاً باارزش‌تر از لینک‌های کشورهای دیگر هستند

ماژول AnchorsAnchorSource، به ما بینشی در مورد سورس لینک‌هایی که میگیریم میده، و نشون میده برای گوگل مهم لینکی که میگیریم ارتباط محلی داره یا نه.

تو این سند، یه ویژگی به نام localCountryCodes وجود داره که کشورهایی رو که صفحه به اونها محلی و/یا مرتبط‌ترین هست، ذخیره می‌کنه.

یعنی وقتی سایت شما فارسی زبان هست، احتمالا گرفتن لینک از سایت‌های انگلیسی زبان ارزش خیلی کمتری برای صفحه شما به حساب میاد به نسبت وقتی که از سایت فارسی زبان لینک میگیرید.

این ارزش حتی وقتی بیشتر میشه که از هم/کشور خودتون لینک بگیرید، یعنی اگه مخاطب سایت شما ایرانی‌ها هستن پس از سایت‌های ایرانی لینک بگیرید.

البته معنیش این نیست که سایر لینک‌ها هیچ وزنی ندارن ولی این وزن بیشتر لینک‌های محلی رو نشون میده که خب کاملا منطقی هست.

برای توضیح بیشتر خوبه یادمون بمونه که گوگل پیش خودش این‌رو ذخیره میکنه که سایت شما برای چه کشوری هست، قبلا هم گفته بود وقتی از پسوندهای دامنه خاص کشورها استفاده می‌کنید پس پیشفرض احتمال میده برای اون کشور هستید، مثلا اگر دامنه سایت شما ir هست گوگل میدونه که سایت شما برای ایران هست.

۳. گوگل یک امتیاز اعتبار در سطح سایت دارد، با وجود اینکه ادعا می‌کند معیاری مثل DA یا DR در گوگل نیست

شاید بزرگترین شگفتی برای اکثر سئوکارهایی که این اسناد رو می‌خونن این باشه که گوگل یه امتیاز «اعتبار سایت» داره، با وجود اینکه بارها و بارها اعلام کرده که معیاری مثل Domain Authority (DA) Moz یا Domain Rating (DR) Ahrefs نداره.

در سال ۲۰۲۰، جان مولر از گوگل اعلام کرد:

«فقط برای اینکه روشن باشه، گوگل هنگام crawl، ایندکس یا رتبه‌بندی جستجو، به هیچ وجه از Domain Authority استفاده نمی‌کنه.»

اما در اواخر اون سال، به یه معیار در سطح سایت اشاره کرد و در مورد Domain Authority گفت:

«من نمی‌دونم که آیا من اون رو به این شکل اعتبار می‌نامم، اما ما یه سری معیار داریم که بیشتر در سطح سایت هستن، یه سری معیار که بیشتر در سطح صفحه هستن»

به وضوح، در اسناد لو رفته، یه امتیاز SiteAuthority می‌بینیم.

با این حال، برای احتیاط، ما نمی‌دونیم که این حتی از راه دور با DA یا DR همسو هست یا نه. همچنین احتمالاً به همین دلیله که گوگل معمولاً به سوالات در مورد این موضوع به این شکل پاسخ داده.

DA Moz و DR Ahrefs امتیازهای مبتنی بر لینک هستن که بر اساس کیفیت و کمیت لینک‌ها هستن.

من شک دارم که siteAuthority گوگل صرفاً مبتنی بر مبنای لینک باشه، با توجه به اینکه به PageRank نزدیک‌تر به نظر می‌رسه. من بیشتر مایلم پیشنهاد کنم که این یه نوع امتیاز محاسبه‌شده بر اساس امتیازهای کیفیت در سطح صفحه، از جمله داده‌های کلیک و سایر سیگنال‌های NavBoost هست.

در واقع نام‌ها ممکنه شبیه باشن ولی با احتمال بالا گوگل فاکتورهای زیادی رو برای اعتبار سایت و اعتبار صفحه میسنجه.

۴. لینک‌های صفحات جدیدتر با ارزش‌تر از لینک‌های صفحات قدیمی‌تر هستند

یه یافته جالب اینه که به نظر می‌رسه لینک‌های صفحات جدیدتر، در برخی موارد، قوی‌تر از لینک‌های محتوای قدیمی‌تر وزن می‌شن.

چیزی که در اینجا برجسته‌ست، اشاره به محتوای تازه منتشر شده «freshdocs» به عنوان یه مورد خاص و در نظر گرفتن اون به عنوان همون لینک‌های «با کیفیت بالا» هست.

این احتمالا از فاکتورهایی باشه که بیشتر در سایت‌های خبری و فید اهمیت پیدا کنه و نشون میده ارزش این صفحات برای گوگل نسبت به پست‌های قدیمی بیشتر هست.

البته باید در نظر بگیریم که «صفحه جدید» به معنی «صفحه با کیفیت‌تر» نیست و این صرفا یکی از صدها و شاید هزاران الگوریتم صفحات هست.

احتمالا همین دلیلی هست که تمام سئوکاران در دنیا پیشنهاد میدن همیشه تولید محتوای جدید داشته باشید و «موتور سایت‌»رو روشن نگه‌دارید.

۵. اعتماد بیشتر گوگل به صفحه اصلی سایت به معنای اعتبار بیشتر لینک‌های داخل این صفحه است

ما در این اسناد «دوباره، در ماژول AnchorsAnchorSource» به یه ویژگی به نام homePageInfo اشاره می‌کنیم که نشون می‌ده گوگل می‌تونه منابع لینک رو به عنوان غیرقابل اعتماد، تا حدی قابل اعتماد یا کاملاً قابل اعتماد برچسب‌گذاری کنه.

این ویژگی مربوط به مواردی هست که صفحه منبع، صفحه اصلی یه وب‌سایت هست، و مقدار not_homepage به صفحات دیگه اختصاص داده می‌شه.

پس این می‌تونه به چه معنا باشه؟

خب این نشون میده گوگل الگوریتم‌هایی داره که میتونه تعریفی از «اعتماد» یک صفحه داشته باشه، نمیدونیم این الگوریتم‌ها چی هستن ولی میدونیم صفحات داخلی میتونن این اعتماد رو از صفحه اصلی به ارث ببرن.

۶. گوگل به طور خاص لینک‌هایی که از سایت‌های خبری با کیفیت بالا می‌آیند را برچسب‌گذاری می‌کند

جالب اینجاست که ما متوجه شدیم که وقتی یه لینکی از یه سایت «خبری، با کیفیت بالا» میاد، گوگل اطلاعات بیشتری در مورد اون ذخیره می‌کنه.

آیا معنیش اینه که لینک‌های سایت‌های خبری «به عنوان مثال، نیویورک تایمز، گاردین و …» با ارزش‌تر از لینک‌های سایر انواع سایت‌ها هستن؟

ما به طور قطع نمی‌دونیم.

اما وقتی به این موضوع نگاه می‌کنیم، در کنار این واقعیت که این نوع سایت‌ها معمولاً معتبرترین و قابل اعتمادترین نشریات آنلاین هستن، و همچنین اونهایی که از نظر تاریخی در دنیای قدیم PageRank ۹ یا ۱۰ داشتن، شما رو به فکر فرو می‌بره.

به عنوان یه سناریو اگه اینو کنار ارزش بالای لینک گرفتن از سایت‌های خبری بذاریم که معمولا داخل اون‌ها معرفی کردن سایت‌های دیگه و لینک دادن طبیعی هست نشون میده در کل لینک گرفتن از سایت‌های خبری احتمالا ارزش بیشتری به نسبت لینک‌های دیگه داره.

البته مجدد باید بگیم که ما به طور قطع نمی‌دونیم.

۷. لینک‌ گرفتن از seed siteها احتمالا با ارزش‌ترین روش جذب لینک باشد

اگه بخوایم یه تعریف خوب برای seed site ها بگیم یعنی «سایت‌ها و مجموعه‌های قابل اعتماد که به سایت‌های دیگه متصل باشن، تعداد زیادی لینک خروجی مفید داشته باشن تا شناسایی صفحات مفید و باکیفیت دیگه رو تسهیل کنن و به عنوان «هاب» در وب عمل کنن.

مثلا توی دنیای وب ما ویکیپدیا رو یه seed میشناسیم، یا شاید بزرگترین seed موجود هست. گوگل در کنار اینکه این سایت‌هارو دوست داره، به لینک‌هایی که به بقیه هم میدن نگاه میکنه.

اسناد لو رفته نشون می‌ده که PageRank به شکل اصلی خودشون مدت‌هاست که منسوخ شده و با PageRank-NearestSeeds جایگزین شده.

۸. گوگل احتمالاً از «منابع معتبر» برای محاسبه اسپم بودن لینک استفاده می‌کند

وقتی به ماژول IndexingDocjoinerAnchorSpamInfo نگاه می‌کنیم، ماژولی که می‌تونیم فرض کنیم مربوط به نحوه پردازش لینک‌های اسپم هست، به «منابع معتبر» اشاره می‌کنیم.

به نظر می‌رسه که گوگل می‌تونه احتمال اسپم بودن لینک‌رو بر اساس تعداد منابع معتبری که به یه صفحه لینک می‌دن محاسبه کنه.

ما نمی‌دونیم که «منبع معتبر» منظورش چیه، اما وقتی به طور کلی در کنار یافته‌های دیگه‌مون بهش نگاه کنیم، می‌تونیم فرض کنیم که این می‌تونه بر اساس اعتماد «صفحه اصلی» باشه. که بازم نمودیم دقیقا چطور گوگل به صفحه اصلی ما اعتماد میکنه.

خلاصه این موضوع اینه که وقتی از جاهایی لینک میگیرید که لینک خاصی به اون‌ها نیست گوگل احتمال میده که اسپم باشه، به خاطر همینه که من شخصا پیشنهاد میدم وقتی از جایی لینک میگیرید مثلا رپورتاژ میخرید سعی کنید برای خود رپورتاژ هم لینک تهیه کنید و حتما که این لینک‌ها باید ارزشمند باشن.

۹. گوگل با اندازه‌گیری سرعت لینک، حملات سئوی منفی را شناسایی می‌کند

جامعه سئو مدتیه بر سر اینکه آیا حملات سئوی منفی یه مشکل هست یا نه، اختلاف نظر داره. گوگل مصره که می‌تونه چنین حملاتی رو شناسایی کنه، در حالی که بسیاری از سئوکارها ادعا کردن که سایتشون تحت تأثیر منفی این موضوع قرار گرفته.

این اسناد به ما بینشی در مورد اینکه گوگل چطور سعی می‌کنه چنین حملاتی رو شناسایی کنه، می‌ده، از جمله ویژگی‌هایی که موارد زیر رو در نظر می‌گیرن:

مدت زمانی که لینک‌های اسپم شناسایی شدن.
میانگین نرخ روزانه اسپم کشف شده.
زمان شروع یه جهش.

ممکنه که این موضوع لینک‌هایی که قصد دارن سیستم‌های رتبه‌بندی گوگل رو دستکاری کنن رو هم در نظر بگیره، اما اشاره به «spike هرزنامه anchor» نشون می‌ده که این مکانیزم برای شناسایی حجم‌های قابل توجه هست، چیزی که ما می‌دونیم یه مشکل رایج در حملات سئوی منفی هست.

احتمالا گوگل فقط به جهش لینک‌های اسپمی که به سایتتون میزنن نگاه نکنه و فاکتورهای دیگه‌ای هم براش مهم باشه، اما بیشتر این حمله‌ها به همین شکله، حجم زیادی لینک‌های اسپم از سایت‌های ضعیف رو به صفحات سایتتون میزنن و سعی میکنن شمارو از صفحه اول گوگل پایین بکشن.

۱۰. پنالتی‌ها یا adjustments مبتنی بر لینک

به نظر می‌رسه که گوگل این توانایی رو داره که پنالتی‌های اسپم لینک رو اعمال کنه یا لینک‌ها رو به صورت link-by-link یا all-links نادیده بگیره.

این می‌تونه به این معنی باشه که با توجه به یک یا چند سیگنال تایید نشده، گوگل می‌تونه تعیین کنه که آیا همه لینک‌های اشاره شده به یه صفحه رو نادیده بگیره یا فقط برخی از اونها رو.

شاید این سوال برامون پیش میاد که اگه صفحه مثلا ۱۰۰ لینک اسپم و ۱۰ لینک باکیفیت داشته باشه ایا ممکنه گوگل تمام لینک‌های اون صفحه رو نادیده بگیره، خب از نظر احتمال ممکنه با این حال ما نمیدونیم دقیقا باید چه نسبتی باشه که گوگل تصمیم به نادیده گرفتن کنه.

این بیشتر نشون میده که مراقب این باشید تعداد لینک‌های اسپم صفحات سایت شما زیاد نشه چون ۱ درصد این احتمال وجود داره که لینک‌های اسپم روی لینک‌های باکیفیت تاثیر داشته باشن.

۱۱. لینک‌های سمی وجود دارند

همین ماه گذشته، مولر گفت که لینک‌های سمی یه مفهوم ساختگی هستن:

«مفهوم لینک‌های سمی توسط ابزارهای سئو ساخته شده تا شما به طور منظم به اونها پول بدید.»

با این حال، در این اسناد، می‌بینیم که به «BadBackLinks» اشاره شده.

اطلاعات ارائه شده در اینجا نشون می‌ده که یه صفحه می‌تونه به دلیل داشتن بک لینک‌های «بد» جریمه بشه.

در حالی که ما نمی‌دونیم چطوری یا اینکه روش امتیاز منفی این لینک‌ها توسط گوگل چقدر به ابزارهای سئو نزدیک هست. حداقل یه معیار بولی «معمولاً مقادیر درست یا غلط» وجود داره که آیا یه صفحه لینک‌های بدی داره که به اون اشاره می‌کنه یا نه.

این‌ها نشون میده که هنوز بک‌لینک‌های بد و سمی وجود دارن و هنوز میتونن اثر منفی داشته باشن و لازمه که بابت اون‌ها کاری انجام بشه.

۱۲. محتوای اطراف لینک، به همراه anchor text، اهمیت زیادی دارد

سئوکارها مدت‌هاست که از anchor text لینک‌ها به عنوان راهی برای ارائه سیگنال‌های زمینه‌ای صفحه هدف استفاده می‌کنن و مستندات Search Central گوگل در مورد بهترین شیوه‌های لینک تایید می‌کنه که «این متن به مردم و گوگل چیزی در مورد صفحه‌ای که به اون لینک می‌دید، می‌گه.»

اما اسناد لو رفته هفته گذشته نشون می‌ده که فقط anchor text نیست که برای درک زمینه یه لینک استفاده می‌شه. احتمالاً از محتوای اطراف لینک هم استفاده می‌شه.

این اسناد به context2، fullLeftContext، و fullRightContext اشاره می‌کنن که اصطلاحات نزدیک لینک هستن.

این نشون می‌ده که محتوای اطراف لینک اهمیت بیشتری نسبت به anchor text داره.

در واقع بهتره سعی کنید در مرتبط‌ترین پاراگراف لینک بدید که ارزش اون به مراتب بیشتر هست.

نکات کلیدی

آیا لینک‌ها هنوز مهم هستن؟

قطعاً می‌گم بله.

شواهد زیادی در اینجا وجود داره که نشون می‌ده لینک‌ها هنوز سیگنال‌های مهم رتبه‌بندی هستن «با وجود اینکه ما از این نشت نمی‌دونیم دقیقا کدوم سیگنال‌ها مهم هستن یا چه وزنی دارن».

شاید بزرگ‌ترین نکته این اسناد این باشه که ارتباط موضوعی خیلی مهمه. این احتماله که گوگل لینک‌هایی رو که از صفحات مرتبط نمیان نادیده می‌گیره، و این رو به یه معیار اولویت موفقیت برای سازندگان لینک و سئوکاران تبدیل میکنه.

اما فراتر از این، ما درک عمیق‌تری از اینکه گوگل چطور به طور بالقوه برای لینک‌ها ارزش قائل می‌شه و چیزهایی که می‌تونن قوی‌تر از بقیه وزن بشن، به دست آوردیم.

آیا این یافته‌ها باید نحوه رویکرد شما به لینک‌سازی یا روابط عمومی دیجیتال رو تغییر بده؟

این بستگی به تاکتیک‌هایی داره که استفاده می‌کنید.

اگه هنوز از تاکتیک‌های قدیمی برای کسب لینک‌های با کیفیت پایین‌تر استفاده می‌کنید، پس می‌گم بله.

اما اگه تاکتیک‌های کسب لینک شما مبتنی بر کسب لینک با از منابع معتبر و با کیفیت بالا هست پس احتمالا راه‌رو دارید درست میرید. نکته اصلی این بود که مرتبط لینک بگیرید.

سورس اسناد: به نظر میرسه این API در نسخه‌های مختلفی هست، مثلا هر منبعی نسخه‌ای از اون رو بررسی کرده با این حال میتونید در لینک‌های زیر اون‌هارو پیدا کنید.
منبع ۰.۳ / منبع ۰.۴ / منبع ۰.۵

توضیح: این صفحه به صورت منظم با منتشر شدن چیزهای بیشتر از این اسناد آپدیت خواهد شد.