همۀ آن چیزی که باید دربارۀ جست‌وجوی صوتی بدانید

جست‌وجوی صوتی چه تفاوتی با نوع سنتی آن دارد؟

یکی از ترندهای دنیای تجارت الکترونیک که از نظر همه‌گیری، سرعت رشد بالایی را تجربه کرده است، بدون شک جست‌وجوی صوتی بوده است و شما هم به‌عنوان صاحب کسب‌وکار باید بیش از بقیه به این ترند توجه کنید تا از غافله عقب نمانید. طبق آمار PwC، بیش از ۳۲% افراد ۱۸ تا ۶۴ سال به‌طور روزانه از جست‌وجوی صوتی استفاده می‌کنند و این مقدار حتی رو به افزایش است. این عددی است که نمی‌توان آن را نادیده گرفت. به عبارت دیگر، شما باید سایت خود را برای جست‌وجوی صوتی نیز بهینه کنید تا آن‌ها راحت‌تر بتوانند شما را پیدا کنند.

در ادامۀ این مطلب از وی‌پدیا بررسی می‌کنیم که جست‌وجوی صوتی چیست، چگونه کار می‌کند و چه مزایایی دارد.

جست‌وجوی صوتی چیست؟

جست‌وجوی صوتی (Voice Search) فناوری‌ای است که به کاربران اجازه می‌دهد به‌جای تایپ‌کردن، با صدای خود چیزی را جست‌وجو کنند. این کار در تمامی دستگاه‌هایی که دارای سیستم تشخیص خودکار گفتار (ASR) هستند، قابل انجام است. این سیستم توانایی تبدیل سیگنال صوتی به متن را دارد. سپس موتورهای جست‌وجو این صدای تبدیل‌شده به متن را مانند سایر کوئری‌های معمول در نظر گرفته و نتایج را نمایش می‌دهند.

در طول زمان، یادگیری ماشین میزان درک از زبان طبیعی انسان را بهبود بخشید و باعث شد نیت جست‌وجوکننده با نتایج به‌نمایش‌درآمده سازگارتر شود. در این بین، هوش مصنوعی (AI) هم به کمک دستگاه‌های دستیار صوتی در بحث ارتقای کیفیت صدا، افزایش عمر باتری و کنترل صدا آمد و درمجموع به جست‌وجوی صوتی جان تازه‌ای بخشید.

جست‌وجوی صوتی چگونه کار می‌کند؟

اگرچه ظاهراً روند خیلی پیچیده‌ای برای انجام یک گشت‌وگذار مبتنی بر صوت دیده نمی‌شود، اما بهتر است بدانیم که برای تشخیص گفتار، ۴ فاز زیر به ازای هر عبارت جست‌وجوشده انجام می‌گیرد:

  1. فیلترکردن صدا (جداکردن عبارت صوتی از سایر صداهای محیط)؛
  2. دیجیتالی‌کردن (تبدیل امواج صوت به دادۀ دیجیتالی)؛
  3. تجزیه‌و‌تحلیل صدا (پردازش داده)؛
  4. تشخیص الگو (مقایسۀ عبارت صوتی با نمونه‌های موجود در پایگاه داده).

بر هیچ‌کس پوشیده نیست که بیشتر سیستم‌های ASR پیشرفته متعلق به گوگل است. هوش مصنوعی که در پشت تشخیص گفتار گوگل قرار دارد، یعنی جست‌وجو با صدا، داده‌هایی را از کاربران جمع‌آوری می‌کند و با جمع‌کردن میلیون‌ها نمونه، یک مدل ایجاد می‌کند. فناوری تشخیص گفتار که در ابتدا توسط IBM توسعه داده شد، به ماشین‌ها یا برنامه‌ها اجازه می‌دهد کلمه‌ای را که گفته می‌‌شود شناسایی کنند و آن را به متنی قابل خواندن تبدیل کنند. سپس هر صدای جدیدی که عبارتی در آن گفته می‌شود، با این مدل صدایی مقایسه می‌شود.

box

فیلیمو


آشنایی با تبلیغات ویدئویی در فیلیمو
کلیک کنید

درنهایت، به‌واسطۀ چند میلیون از نمونه‌های پردازش‌شده، سیستم خواهد توانست لهجه‌ها، لحن‌های مختلف و بسیاری دیگر از ویژگی‌های گفتاری را شناسایی کند. تقریباً غیرممکن است که ASRهای اولیه بتوانند مثلاً تفاوت بین you write و you’re right را متوجه شوند، اما هوش مصنوعی این سیستم با توجه به مفهوم و زمینۀ آن مکالمه می‌تواند عبارت درست را تشخیص دهد. امروزه تشخیص گفتار گوگل می‌تواند با دقتی ۹۵درصدی صدا را به متن تبدیل کند.

چندین الگوریتم و تکنیک‌های محاسبه‌ای در هم ادغام می‌شوند تا تشخیص گفتار انجام شود، به متن تبدیل شود و دقت این تبدیل بهبود یابد. یکی از معمول‌ترین روش‌های استفاده‌شده، پردازش زبان طبیعی (NLP) است. البته NLP یک الگوریتم تشخیص گفتار نیست و بخشی از هوش مصنوعی محسوب می‌شود که به‌دقت روی اینکه چگونه انسان‌ها و ماشین‌ها از طریق زبان، گفتار و متن با هم تعامل دارند، مطالعه می‌کند.

جست‌وجوی صوتی چه تفاوتی با جست‌وجوی سنتی دارد؟

تفاوت بزرگی بین تایپ‌کردن یک سؤال یا عبارت با صحبت‌کردن دربارۀ آن وجود دارد. جدا از اینکه استفاده از جست‌وجوی صوتی برای کاربر بسیار آسان‌تر است، اینکه او چگونه کلمات را کنار هم می‌گذارد تا منظور خود را برساند عواقبی را در پی دارد که باعث می‌شود جست‌وجوی سنتی با نوع صوتی تفاوت پیدا کند.

کلمات کلیدی محاوره‌ای بیشتر و طولانی‌تر

وقتی ما از دستگاه هوشمندمان چیزی را می‌پرسیم، از کلمات جوری استفاده می‌کنیم که انگار در حال صحبت با دوستمان هستیم؛ برخلاف جست‌وجوی سنتی که صرفاً یک‌سری کلمات را کنار هم می‌چینیم تا منظورمان فقط مشخص شود. مثلاً کمتر پیش می‌آید تایپ کنیم: قیمت گوشی مدل X سامسونگ چنده؟ و بیشتر این‌شکلی جست‌وجو می‌کنیم: مدل X سامسونگ قیمت. همان‌طور که مشخص است، وقتی نوبت به جست‌وجوی صوتی می‌رسد، جملات محاوره‌ای و طولانی‌تر می‌شوند.

جست‌وجوی محلی

بسیاری از جست‌وجوهای صوتی شامل کلمات کلیدی‌ای مانند «نزدیک من» است و علاوه‌بر‌این، سؤالاتی دربارۀ ساعت و چیزهایی مثل رستوران‌های X تا چه ساعتی باز هستند؟ یا نزدیک‌ترین پیتزافروشی به من کجاست؟ تماماً جزو جست‌وجوهای محلی (Local) به شمار می‌آیند.

پس با توجه به اینکه امروزه هرکسی برای پیداکردن جایی برای تفریح، یک غذای خاص، یا رفتن به سفر یا هر چیز دیگری، آن را جست‌وجو می‌کند، بهتر است که شما کسب‌وکارتان را در این لیست‌های محلی ثبت کنید تا راحت‌تر توسط بقیه پیدا شوید.

نتایج مختصر و واضح

وقتی چیزی را به‌شکل صوتی جست‌‌وجو می‌کنیم، معمولاً نتایج به‌شکل پاسخی برجسته (Featured Snippets) در بالاترین قسمت صفحۀ نتایج نشان داده می‌شوند. کاری که موتورهای جست‌وجو ازجمله گوگل در پاسخ به جست‌وجوهای صوتی انجام می‌دهند این است که نتایج را به‌شکل پاسخ برجسته و نمودارهای دانش (Knowledge Graph) نمایش می‌دهند تا نتیجه برای جست‌وجوکننده هم واضح باشد و هم مختصر!

چون کسی که چیزی را به‌صورت صوتی جست‌وجو می‌کند، دنبال پاسخی سریع است و اینکه یک موتور جست‌وجو بخواهد او را با سیلی از اطلاعات روبه‌رو کند، کار اشتباهی است. دادن جواب سریع به جست‌وجوکننده نرخ رضایت او را بالا می‌برد، اما در‌عین‌حال ممکن است سایت شما بازدید کمتری داشته باشد، چون پاسخ برجسته اصلاً نیازی به واردشدن به سایت شما ندارد و از خودِ صفحۀ نتایج قابل مشاهده است.

جست‌وجوی صوتی و ابزارها

برای انجام یک جست‌وجوی صوتی از دو نوع وسیله می‌توان استفاده کرد:

  1. دستیار صوتی گوشی موبایل (اوکی گوگل، سیری، کورتانا، سامسونگ بیکس‌بی و…)؛
  2. گجت‌های صوتی (گوگل هوم، آمازون اکو، اپل هوم پاد و…).

مهم‌ترین چیز دربارۀ گجت‌های صوتی این است که صفحۀ نتایج (SERP) ندارند و صرفاً آن دستیار صوتی گجت است که یک جواب مستقیم در قبال چیزی که از او خواسته بودید به شما می‌دهد؛ یعنی نه پاسخ برجسته، نه نمودار دانش، نه جست‌وجوهای مرتبط و نه هیچ‌چیز دیگر. حال سؤال پیش می‌آید که آیا ارزش دارد برای این یک جمله‌ای که قرار است یک دستیار صوتی در یک گجت بگوید، روی سئو تلاش کرد و آن را برای این سبک جست‌وجو آماده کرد؟ آیا این اسپیکرهای هوشمند، در حال تغییر بازی سئو هستند؟ آمار دربارۀ این اسپیکرها می‌گوید:

  • طبق آمار Voicebot در سال ۲۰۱۸، ۲۰% از بزرگسالان در آمریکا از این اسپیکرها دارند.
  • طبق آمار Google در سال ۲۰۱۸، ۷۲% از صاحبان اسپیکرهای هوشمند روزانه از آن‎‌ها استفاده می‌کنند.
  • طبق آمار Statista در سال ۲۰۲۱، ۴۱% از افراد ترجیح می‌دهند به‌جای تایپ از جست‌وجوی صوتی استفاده کنند.
  • طبق آمار Statista پیش‌بینی شده است که در سال ۲۰۲۲، حدود ۶۶.۳میلیون خانواده در آمریکا اسپیکرهای هوشمند خواهند داشت.

البته باید به این نکته توجه داشت که بیشترین استفاده از اسپیکرهای هوشمند، همچنان برای اجرای دستورات است؛ مانند «چراغ را خاموش کن»، «موزیک پخش کن» و… . به عبارت دیگر، گسترش استفاده از این اسپیکرها لزوماً به‌معنای افزایش جست‌وجوی صوتی نیست. اگرچه که طبق آمار Mediapost، در آینده بیش از ۳۰% از جست‌وجوها بدون استفاده از صفحه انجام می‌گیرد؛ یعنی نیازی به مشاهدۀ سایر نتایج نیست. البته که این عدد هنوز دور از دسترس است.

درنهایت باید به این موضوع توجه داشت که اگرچه هیچ‌کدام از اسپیکرهای هوشمند از زبان فارسی پشتیبانی نمی‌کنند، اما بهتر است که شما سایتتان را برای جست‌وجوی صوتی نیز بهینه کنید تا در آینده که پای زبان فارسی هم به میدان باز شد، از رقبا عقب نمانید.

۵/۵ | (۴ امتیاز) امتیازت با موفقیت ثبت شد!
مطالب پیشنهادی ما:

نظر شما چیست؟

آدرس ایمیل شما منتشر نخواهد شد.