یکی از ترندهای دنیای تجارت الکترونیک که از نظر همهگیری، سرعت رشد بالایی را تجربه کرده است، بدون شک جستوجوی صوتی بوده است و شما هم بهعنوان صاحب کسبوکار باید بیش از بقیه به این ترند توجه کنید تا از غافله عقب نمانید. طبق آمار PwC، بیش از ۳۲% افراد ۱۸ تا ۶۴ سال بهطور روزانه از جستوجوی صوتی استفاده میکنند و این مقدار حتی رو به افزایش است. این عددی است که نمیتوان آن را نادیده گرفت. به عبارت دیگر، شما باید سایت خود را برای جستوجوی صوتی نیز بهینه کنید تا آنها راحتتر بتوانند شما را پیدا کنند.
در ادامۀ این مطلب از ویپدیا بررسی میکنیم که جستوجوی صوتی چیست، چگونه کار میکند و چه مزایایی دارد.
جستوجوی صوتی چیست؟
جستوجوی صوتی (Voice Search) فناوریای است که به کاربران اجازه میدهد بهجای تایپکردن، با صدای خود چیزی را جستوجو کنند. این کار در تمامی دستگاههایی که دارای سیستم تشخیص خودکار گفتار (ASR) هستند، قابل انجام است. این سیستم توانایی تبدیل سیگنال صوتی به متن را دارد. سپس موتورهای جستوجو این صدای تبدیلشده به متن را مانند سایر کوئریهای معمول در نظر گرفته و نتایج را نمایش میدهند.
در طول زمان، یادگیری ماشین میزان درک از زبان طبیعی انسان را بهبود بخشید و باعث شد نیت جستوجوکننده با نتایج بهنمایشدرآمده سازگارتر شود. در این بین، هوش مصنوعی (AI) هم به کمک دستگاههای دستیار صوتی در بحث ارتقای کیفیت صدا، افزایش عمر باتری و کنترل صدا آمد و درمجموع به جستوجوی صوتی جان تازهای بخشید.
جستوجوی صوتی چگونه کار میکند؟
اگرچه ظاهراً روند خیلی پیچیدهای برای انجام یک گشتوگذار مبتنی بر صوت دیده نمیشود، اما بهتر است بدانیم که برای تشخیص گفتار، ۴ فاز زیر به ازای هر عبارت جستوجوشده انجام میگیرد:
- فیلترکردن صدا (جداکردن عبارت صوتی از سایر صداهای محیط)؛
- دیجیتالیکردن (تبدیل امواج صوت به دادۀ دیجیتالی)؛
- تجزیهوتحلیل صدا (پردازش داده)؛
- تشخیص الگو (مقایسۀ عبارت صوتی با نمونههای موجود در پایگاه داده).
بر هیچکس پوشیده نیست که بیشتر سیستمهای ASR پیشرفته متعلق به گوگل است. هوش مصنوعی که در پشت تشخیص گفتار گوگل قرار دارد، یعنی جستوجو با صدا، دادههایی را از کاربران جمعآوری میکند و با جمعکردن میلیونها نمونه، یک مدل ایجاد میکند. فناوری تشخیص گفتار که در ابتدا توسط IBM توسعه داده شد، به ماشینها یا برنامهها اجازه میدهد کلمهای را که گفته میشود شناسایی کنند و آن را به متنی قابل خواندن تبدیل کنند. سپس هر صدای جدیدی که عبارتی در آن گفته میشود، با این مدل صدایی مقایسه میشود.
درنهایت، بهواسطۀ چند میلیون از نمونههای پردازششده، سیستم خواهد توانست لهجهها، لحنهای مختلف و بسیاری دیگر از ویژگیهای گفتاری را شناسایی کند. تقریباً غیرممکن است که ASRهای اولیه بتوانند مثلاً تفاوت بین you write و you’re right را متوجه شوند، اما هوش مصنوعی این سیستم با توجه به مفهوم و زمینۀ آن مکالمه میتواند عبارت درست را تشخیص دهد. امروزه تشخیص گفتار گوگل میتواند با دقتی ۹۵درصدی صدا را به متن تبدیل کند.
چندین الگوریتم و تکنیکهای محاسبهای در هم ادغام میشوند تا تشخیص گفتار انجام شود، به متن تبدیل شود و دقت این تبدیل بهبود یابد. یکی از معمولترین روشهای استفادهشده، پردازش زبان طبیعی (NLP) است. البته NLP یک الگوریتم تشخیص گفتار نیست و بخشی از هوش مصنوعی محسوب میشود که بهدقت روی اینکه چگونه انسانها و ماشینها از طریق زبان، گفتار و متن با هم تعامل دارند، مطالعه میکند.
جستوجوی صوتی چه تفاوتی با جستوجوی سنتی دارد؟
تفاوت بزرگی بین تایپکردن یک سؤال یا عبارت با صحبتکردن دربارۀ آن وجود دارد. جدا از اینکه استفاده از جستوجوی صوتی برای کاربر بسیار آسانتر است، اینکه او چگونه کلمات را کنار هم میگذارد تا منظور خود را برساند عواقبی را در پی دارد که باعث میشود جستوجوی سنتی با نوع صوتی تفاوت پیدا کند.
کلمات کلیدی محاورهای بیشتر و طولانیتر
وقتی ما از دستگاه هوشمندمان چیزی را میپرسیم، از کلمات جوری استفاده میکنیم که انگار در حال صحبت با دوستمان هستیم؛ برخلاف جستوجوی سنتی که صرفاً یکسری کلمات را کنار هم میچینیم تا منظورمان فقط مشخص شود. مثلاً کمتر پیش میآید تایپ کنیم: قیمت گوشی مدل X سامسونگ چنده؟ و بیشتر اینشکلی جستوجو میکنیم: مدل X سامسونگ قیمت. همانطور که مشخص است، وقتی نوبت به جستوجوی صوتی میرسد، جملات محاورهای و طولانیتر میشوند.
جستوجوی محلی
بسیاری از جستوجوهای صوتی شامل کلمات کلیدیای مانند «نزدیک من» است و علاوهبراین، سؤالاتی دربارۀ ساعت و چیزهایی مثل رستورانهای X تا چه ساعتی باز هستند؟ یا نزدیکترین پیتزافروشی به من کجاست؟ تماماً جزو جستوجوهای محلی (Local) به شمار میآیند.
پس با توجه به اینکه امروزه هرکسی برای پیداکردن جایی برای تفریح، یک غذای خاص، یا رفتن به سفر یا هر چیز دیگری، آن را جستوجو میکند، بهتر است که شما کسبوکارتان را در این لیستهای محلی ثبت کنید تا راحتتر توسط بقیه پیدا شوید.
نتایج مختصر و واضح
وقتی چیزی را بهشکل صوتی جستوجو میکنیم، معمولاً نتایج بهشکل پاسخی برجسته (Featured Snippets) در بالاترین قسمت صفحۀ نتایج نشان داده میشوند. کاری که موتورهای جستوجو ازجمله گوگل در پاسخ به جستوجوهای صوتی انجام میدهند این است که نتایج را بهشکل پاسخ برجسته و نمودارهای دانش (Knowledge Graph) نمایش میدهند تا نتیجه برای جستوجوکننده هم واضح باشد و هم مختصر!
چون کسی که چیزی را بهصورت صوتی جستوجو میکند، دنبال پاسخی سریع است و اینکه یک موتور جستوجو بخواهد او را با سیلی از اطلاعات روبهرو کند، کار اشتباهی است. دادن جواب سریع به جستوجوکننده نرخ رضایت او را بالا میبرد، اما درعینحال ممکن است سایت شما بازدید کمتری داشته باشد، چون پاسخ برجسته اصلاً نیازی به واردشدن به سایت شما ندارد و از خودِ صفحۀ نتایج قابل مشاهده است.
جستوجوی صوتی و ابزارها
برای انجام یک جستوجوی صوتی از دو نوع وسیله میتوان استفاده کرد:
- دستیار صوتی گوشی موبایل (اوکی گوگل، سیری، کورتانا، سامسونگ بیکسبی و…)؛
- گجتهای صوتی (گوگل هوم، آمازون اکو، اپل هوم پاد و…).
مهمترین چیز دربارۀ گجتهای صوتی این است که صفحۀ نتایج (SERP) ندارند و صرفاً آن دستیار صوتی گجت است که یک جواب مستقیم در قبال چیزی که از او خواسته بودید به شما میدهد؛ یعنی نه پاسخ برجسته، نه نمودار دانش، نه جستوجوهای مرتبط و نه هیچچیز دیگر. حال سؤال پیش میآید که آیا ارزش دارد برای این یک جملهای که قرار است یک دستیار صوتی در یک گجت بگوید، روی سئو تلاش کرد و آن را برای این سبک جستوجو آماده کرد؟ آیا این اسپیکرهای هوشمند، در حال تغییر بازی سئو هستند؟ آمار دربارۀ این اسپیکرها میگوید:
- طبق آمار Voicebot در سال ۲۰۱۸، ۲۰% از بزرگسالان در آمریکا از این اسپیکرها دارند.
- طبق آمار Google در سال ۲۰۱۸، ۷۲% از صاحبان اسپیکرهای هوشمند روزانه از آنها استفاده میکنند.
- طبق آمار Statista در سال ۲۰۲۱، ۴۱% از افراد ترجیح میدهند بهجای تایپ از جستوجوی صوتی استفاده کنند.
- طبق آمار Statista پیشبینی شده است که در سال ۲۰۲۲، حدود ۶۶.۳میلیون خانواده در آمریکا اسپیکرهای هوشمند خواهند داشت.
البته باید به این نکته توجه داشت که بیشترین استفاده از اسپیکرهای هوشمند، همچنان برای اجرای دستورات است؛ مانند «چراغ را خاموش کن»، «موزیک پخش کن» و… . به عبارت دیگر، گسترش استفاده از این اسپیکرها لزوماً بهمعنای افزایش جستوجوی صوتی نیست. اگرچه که طبق آمار Mediapost، در آینده بیش از ۳۰% از جستوجوها بدون استفاده از صفحه انجام میگیرد؛ یعنی نیازی به مشاهدۀ سایر نتایج نیست. البته که این عدد هنوز دور از دسترس است.
درنهایت باید به این موضوع توجه داشت که اگرچه هیچکدام از اسپیکرهای هوشمند از زبان فارسی پشتیبانی نمیکنند، اما بهتر است که شما سایتتان را برای جستوجوی صوتی نیز بهینه کنید تا در آینده که پای زبان فارسی هم به میدان باز شد، از رقبا عقب نمانید.