پایه میکروفون
مت هاکینگ، رئیس اجرایی و یکی از بنیانگذاران WellSaid Labs، یک راه حل تولید صدای متن به گفتار هوش مصنوعی است.

getty اگر این روزها زمان زیادی را در رسانه های اجتماعی (مخصوصاً TikTok یا اینستاگرام) صرف می کنید، بدون شک صدای تولید شده توسط هوش مصنوعی را شنیده اید، چه می دانستید یا نه. چرا شرکت ها و افراد از این صداهای هوش مصنوعی استفاده می کنند و چگونه به این نقطه رسیدیم که صدای هوش مصنوعی غیرقابل تشخیصی از صدای انسان داشته باشیم؟
اولین اقداماتی که در زمینه فناوری تبدیل متن به گفتار (TTS) یا صدای هوش مصنوعی انجام شد، شامل دستگاه‌ها یا سیستم‌های مبتنی بر رایانه بود که می‌توانست با به هم‌پیوستن صداهای گفتار، گفتار انسان را تقریب بزند. اگرچه این روش‌های اولیه صداهای قابل درک را تولید می‌کردند، اما بسیار ابتدایی و روباتیک بودند—به‌طور استثنایی به دور از شباهت به گفتار واقعی انسان بودند. در طول دهه‌ها، پیشرفت‌ها در قدرت محاسباتی، الگوریتم‌ها و پردازش داده‌ها، تکامل TTS را در همه جا امکان‌پذیر کرد – از دستیارهای مجازی فعال صوتی مانند Cortana مایکروسافت، سیری اپل و الکسای آمازون گرفته تا صدای خودکار خطوط پشتیبانی مشتری و حتی میم‌هایی که در رسانه‌های اجتماعی دیده می‌شوند. .
امروزه، صدای هوش مصنوعی را می توان تقریباً در هر صنعتی، از خدمات مالی، بیمه و مراقبت های بهداشتی گرفته تا خرده فروشی، رسانه، مهمان نوازی و غیره پیدا کرد. فرصت‌ها بسیار فراتر از آنچه تاکنون دیده‌ایم است، و امکاناتی را برای تجربه‌های شخصی‌سازی‌شده‌تر در هر حوزه‌ای که می‌توانیم به آن فکر کنیم، از جمله تبلیغات، حضور در هواپیما، ویدیوهای آموزشی و حتی روایت‌های خبری ارائه می‌دهد.
علاوه بر این، فناوری صدای هوش مصنوعی تغییر چشمگیری در نحوه تعامل ما با فناوری ایجاد کرده است و به برندها قالبی کاملاً جدید برای تعامل با مخاطبان خود ارائه می دهد. تغییر روشی که مردم از محتوای نوشتاری مصرف می‌کنند با تبدیل متن به صوتی غنی که واقعاً توجه شنوندگان را به خود جلب می‌کند نه تنها به تعامل کمک می‌کند، بلکه دامنه آگاهی آن‌ها را به جمعیت‌شناسی جدید گسترش می‌دهد.
بیشتر از FORMFORBES ADVISORبهترین حساب‌های پس‌انداز با بازدهی 2024ByKevin PayneContributorبهترین حساب‌های پس‌انداز سود 5% در سال 2024ByCassidy HortonContributor کاربران نهایی می‌توانند با گنجاندن صدای هوش مصنوعی در محصولات، محتوای شخصی‌سازی‌شده‌ای داشته باشند که حتی با آن‌ها صحبتی چندگانه می‌کند. این پیشرفت‌ها به ایجاد راه‌حل‌های مقرون‌به‌صرفه‌تر و چندوجهی‌تر و تجربیات کاربری کمک می‌کنند که افراد را قادر می‌سازد به محتوای دلخواه خود گوش دهند. تصور کنید در حین آشپزی یا ورزش به جای خواندن در گوشی، به مقالات خبری خود گوش می دهید.
از روز اول، بزرگ‌ترین چالش برای سیستم‌های TTS تکرار گفتار تقریباً کامل انسان بود. اکثر نتایج بی احساس و صاف بودند. این به این دلیل است که این سیستم ها توانایی به تصویر کشیدن تنوع و لحن غنی که در هر کلمه یا عبارت گفتاری وجود دارد را نداشتند. چیزی که گفتار را ایجاد می کند فقط یک سری کلمات نیست، بلکه زیر و بم، لحن و حتی گویش منطقه ای است – همه اینها عمق و زمینه احساسی و معنادار را در پشت کلمات ما دارند و جوهر فرد را در پشت صدا در بر می گیرند.
صدای هوش مصنوعی با دقت ساخته شده است و شامل چندین مرحله است که فناوری پیشرفته، الگوریتم های پیچیده و ابزارهای ضروری مختلف را ترکیب می کند. جمع آوری داده ها تنها گام اول است. با پیشرفت‌های هوش مصنوعی، TTS می‌تواند از مقادیر بی‌پایانی داده، الگوریتم‌های پیشرفته و ابزارهای پیچیده برای ارائه گستره وسیع‌تری از صداها و سبک‌های گفتاری نسبت به قبل استفاده کند. اما چگونه هوش مصنوعی واقعاً یاد می گیرد که چگونه منحصر به فرد بودن صدای انسان را به تصویر بکشد؟
برای درک اینکه چه چیزی صدای انسان را بسیار منحصر به فرد می کند، به ویژه در زبان انگلیسی، باید نمودارها و واج ها را درک کنیم. گرافم ها، همانطور که از نامشان پیداست، نحوه نگارش کلمات و واج ها نحوه گفتار آنهاست. این دو مفهوم بر نحوه برقراری ارتباط ما در زبان انگلیسی حاکم است و ارتباط بین این دو باید آموزش داده شود. آموزش واج های هوش مصنوعی کلید تولید صداهای مصنوعی است که تفاوت های ظریف ارتباطات انسانی را به تصویر می کشد. با این حال، انجام این کار نیاز به تلفظ استاندارد دارد تا هوش مصنوعی بتواند تلفظ صحیح را فقط با خواندن کلمه بداند.
اینجاست که الفبای آوایی بین المللی وارد می شود. در اواخر قرن نوزدهم، IPA برای ایجاد یک سیستم نوشتاری یکنواخت برای نمایش همه صداهای شنیده شده در زبان های مختلف، نه فقط انگلیسی، ایجاد شد. IPA شامل نمادهایی است که یک صدای متمایز را نشان می دهد و هدف آن نقشه برداری ثابت بین نمادها و صداها در سراسر زبان ها است.
با حصول اطمینان از تطابق مستقیم بین نمادها و صداها، IPA یکپارچگی را ترویج می کند و سردرگمی در زبان گفتاری را کاهش می دهد. به عنوان مثال، کلمه “موز” به صورت /bəˈnænə/ نشان داده می شود. در این رونویسی IPA، هر صدا به طور مشخص نشان داده می شود: فقط یک “b” وجود دارد، صدای مصوت “a” با /ə/، و صدای مصوت تاکید شده “a” با /æ/ نشان داده می شود. این وضوح تضمین می کند که با وجود تفاوت در املا، تنها یک تلفظ برای هر نمایش IPA باقی می ماند.
IPA به مدل‌های یادگیری عمیق کمک می‌کند تا تلفظ را درک کنند، اما در سمت کاربر، آنقدر دست و پا گیر است که مفید نباشد. در عوض، استفاده از یک سیستم املا بسیار ساده تر و کارآمدتر است.
نمونه ای از این مشارکت شرکت ما با زبان آکسفورد است. آکسفورد زبان‌ها به‌روزترین رونویسی‌های هجای IPA کلمات را در WellSaid Labs ارائه می‌کند. با استفاده از این رونویسی های IPA، ما کلمات موجود در اسکریپت ها را به سیستم املای آن ها نگاشت می کنیم. متعاقباً، این مدل در مورد املای منظم کلمات و همتایان املای آنها آموزش می بیند. از طریق این رویکرد، مدل یاد می‌گیرد که چگونه نمودارها و املای املا با واج‌ها مطابقت دارند و به کاربران کنترل دقیقی بر تلفظی می‌دهد که هنوز هم به نظر انسان می‌رسد.
دیگر بازیگران بزرگ از قابلیت های TTS مبتنی بر هوش مصنوعی بهره می برند. به عنوان مثال، TTS Microsoft Azure از آخرین پیشرفت‌ها در شبکه‌های عصبی برای ارائه زبانی واضح استفاده می‌کند. در یک یادداشت مشابه، آمازون پولی متن را از طریق یادگیری عمیق در ده‌ها زبان و صدا به گفتار تبدیل می‌کند.
پس چرا این اصلا مهم است؟ دستیابی به عملکردی شبیه انسان سفری چالش برانگیز بوده است، اما اکنون که در دسترس است، شاهد پتانسیل کامل این فناوری هستیم. کسب‌وکارهای سازمانی متحول خواهند شد – از مراکز تماس، آژانس‌های خلاق و تیم‌های بازاریابی به محصولات، تجربیات و حتی تیم‌های آموزشی شرکتی. همه اینها به دلیل دستاوردهای فنی در سراسر این زمینه و فناوری پیشرفته، الگوریتم های پیچیده و ابزارهای مختلف که در بالا ذکر شد امکان پذیر است.
همانطور که به آینده TTS نگاه می کنیم، صنعت ما قادر خواهد بود حتی صداهای واقعی تر، رسا و شخصی تر ایجاد کند. خیلی زود، می توانیم انتظار داشته باشیم که صدای هوش مصنوعی حتی بیشتر از زندگی روزمره ما جدایی ناپذیر شود و از گفتار انسان قابل تشخیص نباشد و قادر به انتقال هر احساس دلخواه باشد.
شورای فناوری فوربس یک انجمن فقط دعوت برای مدیران ارشد فناوری، مدیران ارشد فناوری و مدیران فناوری در سطح جهانی است. آیا واجد شرایط هستم؟
من را در توییتر یا لینکدین دنبال کنید. وب سایت من را بررسی کنید. مت هاکینگ مت هاکینگ، رئیس اجرایی و یکی از بنیانگذاران WellSaid Labs، یک راه حل تولید صدای متن به گفتار هوش مصنوعی است. مشخصات اجرایی کامل مت هاکینگ را اینجا بخوانید.”>

* استانداردهای تحریریه چاپ
* چاپ مجدد و مجوزها

توسط jahankhabari