پایه میکروفون
مت هاکینگ، رئیس اجرایی و یکی از بنیانگذاران WellSaid Labs، یک راه حل تولید صدای متن به گفتار هوش مصنوعی است.
getty اگر این روزها زمان زیادی را در رسانه های اجتماعی (مخصوصاً TikTok یا اینستاگرام) صرف می کنید، بدون شک صدای تولید شده توسط هوش مصنوعی را شنیده اید، چه می دانستید یا نه. چرا شرکت ها و افراد از این صداهای هوش مصنوعی استفاده می کنند و چگونه به این نقطه رسیدیم که صدای هوش مصنوعی غیرقابل تشخیصی از صدای انسان داشته باشیم؟
اولین اقداماتی که در زمینه فناوری تبدیل متن به گفتار (TTS) یا صدای هوش مصنوعی انجام شد، شامل دستگاهها یا سیستمهای مبتنی بر رایانه بود که میتوانست با به همپیوستن صداهای گفتار، گفتار انسان را تقریب بزند. اگرچه این روشهای اولیه صداهای قابل درک را تولید میکردند، اما بسیار ابتدایی و روباتیک بودند—بهطور استثنایی به دور از شباهت به گفتار واقعی انسان بودند. در طول دههها، پیشرفتها در قدرت محاسباتی، الگوریتمها و پردازش دادهها، تکامل TTS را در همه جا امکانپذیر کرد – از دستیارهای مجازی فعال صوتی مانند Cortana مایکروسافت، سیری اپل و الکسای آمازون گرفته تا صدای خودکار خطوط پشتیبانی مشتری و حتی میمهایی که در رسانههای اجتماعی دیده میشوند. .
امروزه، صدای هوش مصنوعی را می توان تقریباً در هر صنعتی، از خدمات مالی، بیمه و مراقبت های بهداشتی گرفته تا خرده فروشی، رسانه، مهمان نوازی و غیره پیدا کرد. فرصتها بسیار فراتر از آنچه تاکنون دیدهایم است، و امکاناتی را برای تجربههای شخصیسازیشدهتر در هر حوزهای که میتوانیم به آن فکر کنیم، از جمله تبلیغات، حضور در هواپیما، ویدیوهای آموزشی و حتی روایتهای خبری ارائه میدهد.
علاوه بر این، فناوری صدای هوش مصنوعی تغییر چشمگیری در نحوه تعامل ما با فناوری ایجاد کرده است و به برندها قالبی کاملاً جدید برای تعامل با مخاطبان خود ارائه می دهد. تغییر روشی که مردم از محتوای نوشتاری مصرف میکنند با تبدیل متن به صوتی غنی که واقعاً توجه شنوندگان را به خود جلب میکند نه تنها به تعامل کمک میکند، بلکه دامنه آگاهی آنها را به جمعیتشناسی جدید گسترش میدهد.
بیشتر از FORMFORBES ADVISORبهترین حسابهای پسانداز با بازدهی 2024ByKevin PayneContributorبهترین حسابهای پسانداز سود 5% در سال 2024ByCassidy HortonContributor کاربران نهایی میتوانند با گنجاندن صدای هوش مصنوعی در محصولات، محتوای شخصیسازیشدهای داشته باشند که حتی با آنها صحبتی چندگانه میکند. این پیشرفتها به ایجاد راهحلهای مقرونبهصرفهتر و چندوجهیتر و تجربیات کاربری کمک میکنند که افراد را قادر میسازد به محتوای دلخواه خود گوش دهند. تصور کنید در حین آشپزی یا ورزش به جای خواندن در گوشی، به مقالات خبری خود گوش می دهید.
از روز اول، بزرگترین چالش برای سیستمهای TTS تکرار گفتار تقریباً کامل انسان بود. اکثر نتایج بی احساس و صاف بودند. این به این دلیل است که این سیستم ها توانایی به تصویر کشیدن تنوع و لحن غنی که در هر کلمه یا عبارت گفتاری وجود دارد را نداشتند. چیزی که گفتار را ایجاد می کند فقط یک سری کلمات نیست، بلکه زیر و بم، لحن و حتی گویش منطقه ای است – همه اینها عمق و زمینه احساسی و معنادار را در پشت کلمات ما دارند و جوهر فرد را در پشت صدا در بر می گیرند.
صدای هوش مصنوعی با دقت ساخته شده است و شامل چندین مرحله است که فناوری پیشرفته، الگوریتم های پیچیده و ابزارهای ضروری مختلف را ترکیب می کند. جمع آوری داده ها تنها گام اول است. با پیشرفتهای هوش مصنوعی، TTS میتواند از مقادیر بیپایانی داده، الگوریتمهای پیشرفته و ابزارهای پیچیده برای ارائه گستره وسیعتری از صداها و سبکهای گفتاری نسبت به قبل استفاده کند. اما چگونه هوش مصنوعی واقعاً یاد می گیرد که چگونه منحصر به فرد بودن صدای انسان را به تصویر بکشد؟
برای درک اینکه چه چیزی صدای انسان را بسیار منحصر به فرد می کند، به ویژه در زبان انگلیسی، باید نمودارها و واج ها را درک کنیم. گرافم ها، همانطور که از نامشان پیداست، نحوه نگارش کلمات و واج ها نحوه گفتار آنهاست. این دو مفهوم بر نحوه برقراری ارتباط ما در زبان انگلیسی حاکم است و ارتباط بین این دو باید آموزش داده شود. آموزش واج های هوش مصنوعی کلید تولید صداهای مصنوعی است که تفاوت های ظریف ارتباطات انسانی را به تصویر می کشد. با این حال، انجام این کار نیاز به تلفظ استاندارد دارد تا هوش مصنوعی بتواند تلفظ صحیح را فقط با خواندن کلمه بداند.
اینجاست که الفبای آوایی بین المللی وارد می شود. در اواخر قرن نوزدهم، IPA برای ایجاد یک سیستم نوشتاری یکنواخت برای نمایش همه صداهای شنیده شده در زبان های مختلف، نه فقط انگلیسی، ایجاد شد. IPA شامل نمادهایی است که یک صدای متمایز را نشان می دهد و هدف آن نقشه برداری ثابت بین نمادها و صداها در سراسر زبان ها است.
با حصول اطمینان از تطابق مستقیم بین نمادها و صداها، IPA یکپارچگی را ترویج می کند و سردرگمی در زبان گفتاری را کاهش می دهد. به عنوان مثال، کلمه “موز” به صورت /bəˈnænə/ نشان داده می شود. در این رونویسی IPA، هر صدا به طور مشخص نشان داده می شود: فقط یک “b” وجود دارد، صدای مصوت “a” با /ə/، و صدای مصوت تاکید شده “a” با /æ/ نشان داده می شود. این وضوح تضمین می کند که با وجود تفاوت در املا، تنها یک تلفظ برای هر نمایش IPA باقی می ماند.
IPA به مدلهای یادگیری عمیق کمک میکند تا تلفظ را درک کنند، اما در سمت کاربر، آنقدر دست و پا گیر است که مفید نباشد. در عوض، استفاده از یک سیستم املا بسیار ساده تر و کارآمدتر است.
نمونه ای از این مشارکت شرکت ما با زبان آکسفورد است. آکسفورد زبانها بهروزترین رونویسیهای هجای IPA کلمات را در WellSaid Labs ارائه میکند. با استفاده از این رونویسی های IPA، ما کلمات موجود در اسکریپت ها را به سیستم املای آن ها نگاشت می کنیم. متعاقباً، این مدل در مورد املای منظم کلمات و همتایان املای آنها آموزش می بیند. از طریق این رویکرد، مدل یاد میگیرد که چگونه نمودارها و املای املا با واجها مطابقت دارند و به کاربران کنترل دقیقی بر تلفظی میدهد که هنوز هم به نظر انسان میرسد.
دیگر بازیگران بزرگ از قابلیت های TTS مبتنی بر هوش مصنوعی بهره می برند. به عنوان مثال، TTS Microsoft Azure از آخرین پیشرفتها در شبکههای عصبی برای ارائه زبانی واضح استفاده میکند. در یک یادداشت مشابه، آمازون پولی متن را از طریق یادگیری عمیق در دهها زبان و صدا به گفتار تبدیل میکند.
پس چرا این اصلا مهم است؟ دستیابی به عملکردی شبیه انسان سفری چالش برانگیز بوده است، اما اکنون که در دسترس است، شاهد پتانسیل کامل این فناوری هستیم. کسبوکارهای سازمانی متحول خواهند شد – از مراکز تماس، آژانسهای خلاق و تیمهای بازاریابی به محصولات، تجربیات و حتی تیمهای آموزشی شرکتی. همه اینها به دلیل دستاوردهای فنی در سراسر این زمینه و فناوری پیشرفته، الگوریتم های پیچیده و ابزارهای مختلف که در بالا ذکر شد امکان پذیر است.
همانطور که به آینده TTS نگاه می کنیم، صنعت ما قادر خواهد بود حتی صداهای واقعی تر، رسا و شخصی تر ایجاد کند. خیلی زود، می توانیم انتظار داشته باشیم که صدای هوش مصنوعی حتی بیشتر از زندگی روزمره ما جدایی ناپذیر شود و از گفتار انسان قابل تشخیص نباشد و قادر به انتقال هر احساس دلخواه باشد.
شورای فناوری فوربس یک انجمن فقط دعوت برای مدیران ارشد فناوری، مدیران ارشد فناوری و مدیران فناوری در سطح جهانی است. آیا واجد شرایط هستم؟
من را در توییتر یا لینکدین دنبال کنید. وب سایت من را بررسی کنید. مت هاکینگ مت هاکینگ، رئیس اجرایی و یکی از بنیانگذاران WellSaid Labs، یک راه حل تولید صدای متن به گفتار هوش مصنوعی است. مشخصات اجرایی کامل مت هاکینگ را اینجا بخوانید.”>
* استانداردهای تحریریه چاپ
* چاپ مجدد و مجوزها