ቁልፍ መውሰጃዎች
- ኩባንያዎች በኮምፒዩተር የመነጨ ንግግርን የበለጠ እውነታዊ ለማድረግ መንገዶችን ለማግኘት ይሽቀዳደማሉ።
- NVIDIA በራስዎ ድምጽ AIን እንዲያሰልጥኑ በማድረግ የተፈጥሮ ንግግር ድምጽን የሚስቡ መሳሪያዎችን በቅርቡ ይፋ አድርጓል።
- አስተሳሰብ፣ ስሜት እና ሙዚቃ የኮምፒውተር ድምጽ አሁንም የጎደላቸው ባህሪያት ናቸው ሲሉ አንድ ባለሙያ ይናገራሉ።
በኮምፒውተር የመነጨ ንግግር በቅርቡ ብዙ ሰው ሊመስል ይችላል።
የኮምፒዩተር መለዋወጫ ሰሪ ኤንቪዲአይን በድምጽዎ እንዲያሰልጥኑ በማድረግ የተፈጥሮ ንግግር ድምጽን የሚስቡ መሳሪያዎችን በቅርቡ ይፋ አድርጓል።ሶፍትዌሩ የሌላውን ሰው ድምጽ በመጠቀም የአንዱን ተናጋሪ ቃላት ሊያቀርብ ይችላል። የኮምፒዩተር ንግግርን የበለጠ እውነታዊ ለማድረግ እየጎለበተ የሚሄድ ግፊት አካል ነው።
"የላቀ የድምጽ AI ቴክኖሎጂ ተጠቃሚዎች በተፈጥሮ እንዲናገሩ ያስችላቸዋል፣ብዙ ጥያቄዎችን ወደ አንድ ዓረፍተ ነገር በማጣመር እና ከዋናው ጥያቄ ላይ ያለማቋረጥ ዝርዝሮችን የመድገም አስፈላጊነትን ያስወግዳል፣" ማይክል ዛጎርስክ የንግግር ማወቂያ ኩባንያ ዋና ኦፊሰር SoundHound ፣ ለ Lifewire በኢሜል ቃለ መጠይቅ ተናግሯል።
"የበርካታ ቋንቋዎች መደመር፣ አሁን በአብዛኛዎቹ የድምጽ AI መድረኮች ላይ የሚገኝ፣ የዲጂታል ድምጽ ረዳቶችን ለበለጠ ጂኦግራፊ እና ለተጨማሪ ህዝብ ተደራሽ ያደርጋቸዋል" ሲል አክሏል።
Robospeech Rising
የአማዞን አሌክሳ እና የአፕል ሲሪ ከአስር አመት በፊት ከነበሩት የኮምፒዩተር ንግግሮች በጣም የተሻሉ ናቸው፣ነገር ግን በቅርብ ጊዜ ትክክለኛ የሰው ድምጽ ብለው አይሳሳቱም።
ሰው ሰራሽ ንግግር ይበልጥ ተፈጥሯዊ እንዲሆን የNVDIA የጽሑፍ-ወደ-ንግግር ምርምር ቡድን RAD-TTS ሞዴል አዘጋጅቷል። ስርዓቱ ግለሰቦች የፅሁፍ-ወደ-ንግግር (TTS) ሞዴልን በድምፃቸው እንዲያስተምሩ ያስችላቸዋል ይህም ፍጥነትን ፣ ቃናውን ፣ ግንድን እና ሌሎች ነገሮችን ይጨምራል።
ኩባንያው አዲሱን ሞዴሉን ተጠቅሞ ብዙ የንግግር ድምጽ ያለው የድምፅ ትረካ ለመገንባት ለተከታታይ እኔ አይ ነኝ።
"በዚህ በይነገጽ፣የእኛ ቪዲዮ ፕሮዲዩሰር እራሱን የቪዲዮ ስክሪፕቱን እያነበበ መዝግቦ በመቀጠል AI ሞዴሉን በመጠቀም ንግግሩን ወደ ሴት ተራኪ ድምጽ ይለውጣል።ይህን መነሻ ትረካ በመጠቀም ፕሮዲዩሰሩ AI ን እንደ የድምፅ ተዋንያን የተዋሃደውን ንግግር በማስተካከል የተወሰኑ ቃላትን ለማጉላት እና የትረካውን ፍጥነት በማስተካከል የቪዲዮውን ድምጽ በተሻለ መልኩ ለመግለጽ "NVDIA በድረ-ገፁ ላይ ጽፏል።
ከሚሰማው በላይ ከባድ
በኮምፒዩተር የመነጨ ንግግር ተፈጥሯዊ እንዲሆን ማድረግ ከባድ ችግር ነው ይላሉ ባለሙያዎች።
"የአንድን ሰው የኮምፒዩተር ቅጂ ለመፍጠር በመቶዎች የሚቆጠር ሰአታት የሚቆጠር ድምጽ መቅዳት አለቦት"ሲሉ ለንግግር ሶፍትዌር ኩባንያ የፅሁፍ ዋና ስራ አስፈፃሚ ናዚም ራጊሞቭ በኢሜል ቃለ መጠይቅ ላይ ለ Lifewire ተናግሯል። "እና ቀረጻው ከፍተኛ ጥራት ያለው፣ በፕሮፌሽናል ስቱዲዮ የተቀዳ መሆን አለበት።ብዙ ሰዓታት ጥራት ያለው ንግግር በተጫነ እና በተሰራ መጠን ውጤቱ የተሻለ ይሆናል።"
ጽሑፍ-ወደ-ንግግር በጨዋታ፣የድምፅ አካል ጉዳተኞችን ለመርዳት ወይም ተጠቃሚዎች በቋንቋዎች መካከል በራሳቸው ድምፅ እንዲተረጉሙ ለማገዝ መጠቀም ይቻላል።
ኢንቶኔሽን፣ ስሜት እና ሙዚቃ የኮምፒዩተር ድምጽ አሁንም የጎደላቸው ባህሪያት ናቸው ሲል ራጊሞቭ ተናግሯል።
AI እነዚህን የጎደሉ አገናኞች ማከል ከቻለ በኮምፒዩተር የመነጨ ንግግር "ከእውነተኛ ተዋናዮች ድምፅ የማይለይ ይሆናል" ሲል አክሏል። "ይህ በሂደት ላይ ያለ ስራ ነው። ሌሎች ድምጾች ከሬዲዮ አስተናጋጆች ጋር መወዳደር ይችላሉ። በቅርቡ ኦዲዮ መጽሐፍትን መዘመር እና ማንበብ የሚችሉ ድምፆችን ታያለህ።"
የንግግር ቴክኖሎጂ በተለያዩ ንግዶች ውስጥ ይበልጥ ታዋቂ እየሆነ መጥቷል።
"የአውቶ ኢንዱስትሪው ደህንነቱ የተጠበቀ እና የበለጠ የተገናኙ የመንዳት ልምዶችን ለመፍጠር እንደ መንገድ በቅርብ ጊዜ የድምጽ AI ተቀባይ ሆኗል" ሲል ዛጎርስክ ተናግሯል።
ከዛ ጀምሮ፣ የምርት ስሞች የደንበኞችን ተሞክሮ የሚያሻሽሉበት እና ቀላል፣ ደህንነቱ የተጠበቀ፣ የበለጠ ምቹ፣ ቀልጣፋ እና ንጽህና አጠባበቅ ዘዴዎች ከምርቶቻቸው እና አገልግሎቶቻቸው ጋር የመገናኘት ፍላጎታቸውን ለማሟላት ስለሚፈልጉ የድምጽ ረዳቶች በየቦታው እየተስፋፉ መጥተዋል።
በተለምዶ፣ ድምጽ AI ጥያቄዎችን ወደ ምላሾች ይለውጣል በሁለት-ደረጃ ሂደት ንግግርን ወደ ጽሑፍ በመገልበጥ አውቶማቲክ የንግግር ማወቂያ (ASR) እና ጽሑፉን ወደ ተፈጥሯዊ ቋንቋ መረዳት (NLU) ሞዴል።
የSoundHound አካሄድ ንግግርን በቅጽበት ለመከታተል እነዚህን ሁለት ደረጃዎች ወደ አንድ ሂደት ያጣምራል። ኩባንያው ይህ ቴክኒክ የድምጽ ረዳቶች የተጠቃሚ ጥያቄዎችን ትርጉም እንዲረዱ ያስችላቸዋል ሲል ተናግሯል፣ ግለሰቡ ተናግሮ ሳይጨርስ እንኳን።
በኮምፒዩተር ንግግር ውስጥ ያሉ የወደፊት እድገቶች፣የተለያዩ የግንኙነት አማራጮች መገኘትን ጨምሮ ከተከተተ-ብቻ (የደመና ግንኙነት አያስፈልግም) ወደ ድቅል (የተከተተ ፕላስ ደመና) እና ደመና-ብቻ "በኢንዱስትሪዎች ላሉት ኩባንያዎች የበለጠ ምርጫን ይሰጣል። ከዋጋ፣ ግላዊነት እና ከማስኬጃ ሃይል አቅርቦት አንፃር፣ " ዛጎረስክ ተናግሯል።
NVIDIA የዜናዎቹ AI ሞዴሎች ከድምፅ በላይ ስራ ያልፋሉ ብሏል።
"ጽሑፍ-ወደ-ንግግር በጨዋታ፣የድምፅ አካል ጉዳተኞችን ለመርዳት ወይም ተጠቃሚዎች በቋንቋዎች መካከል በራሳቸው ድምፅ እንዲተረጉሙ ለመርዳት ጥቅም ላይ ሊውል ይችላል" ሲል ኩባንያው ጽፏል። "የዘፈኑን ዜማ ብቻ ሳይሆን ከድምፃዊው ጀርባ ያለውን ስሜታዊ አገላለፅም በማዛመድ የአዋጅ ዘፋኞችን ትርኢት እንደገና ሊፈጥር ይችላል።"