A Linux hangfelismerés állapota

A beszédfelismerés a Linuxban nyomon követi a Windows és a Mac platformokat, mert a Microsoft és az Apple is jelentős időt és költséget fordított a hangutasítás vagy a hangsegéd szoftverek alap operációs rendszerükbe történő felvételére.

Habár a helyzet nem komor a Linux esetében, mivel számos csúcstechnológiával rendelkezik, a szabad és a nyílt forráskódú univerzum egy lépéssel hátrébb marad, különösen a hangutasító eszközök esetében.


Natív Linux beszédfelismerés

Egyetlen Linux disztribúció sem koncentrál a beszédfelismerésre. A beszédfelismerést támogató alkalmazások azonban egy sor nyílt forráskódú könyvtárra támaszkodnak, beleértve a Sphinxet, a Kaldi-t, a Julius-t és a Mozilla Deepspeech-et.

Negatív tér / Makett. Fotók 

Ezek a könyvtárak egy beszédkorpuszra támaszkodva kínálják a hangok variációit az AI képzése érdekében, és ezért helyesen fordítják a beszédet szöveggé. A nyílt forráskódú projektek azonban kevésbé kifinomultak (mivel kisebb mértékben járulnak hozzá az AI képzéséhez), ami azt jelenti, hogy a legtöbb Linux-os szövegfelolvasó alkalmazás gyakran gátolja az átalakítást. Általában annyira alaposan megbotlik, hogy nem világos, mi lehetett az eredeti beszéd.


A Linux Speech to Text opciói

Használja az öt megoldási út egyikét.

  • Bízzon a disztribúció táraiban elérhető natív Linux-alkalmazásokban - ha vannak ilyenek.
  • Az Amazon elérhetővé tette az Alexát Linux alatt, beleértve a Raspberry Pi-t is. Nagyon sok egyedi csípést kell végrehajtania ahhoz, hogy ez az elrendezés működjön, de működni fog.
  • Böngészőjében nyissa meg a Google Speech API-t a DictationIO segítségével. Ez a szolgáltatás csak diktálás céljából működik; nem használhatja hangutasításra. A Google mesterséges intelligenciája hajtja, így a minőség jó.

  • Használjon olyan szolgáltatást, mint az Alexa vagy a Google Assistant, a Linux hangutasító segédprogramjaként a Triggercmd szolgáltatáson keresztül. A Triggercmd fut a számítógépén; használja az Alexa vagy a Google Assistant meghívására, és kérje meg ezeket az eszközöket, hogy a parancsod alapján hajtsanak végre bizonyos Bash parancsfájlokat. Mondjon valamit: "OK Google, kérdezze meg a trigger parancsot a számológép megnyitásához." A Google Segéd a Triggercmd közvetítőjeként szolgál a Bash szkript futtatásához, amelyet a "nyissa meg a számológépet" kifejezés határoz meg.
  • Használja a Wine-t vagy egy virtuális gépet olyan szoftverekkel Windows-hoz, mint a Dragon NaturallySpeaking. Megfelelő beállítással használhatja a Dragon motort az átíráshoz, bár ez a megoldás nem működik hangutasító alkalmazásoknál.