A beszédfelismerés a Linuxban nyomon követi a Windows és a Mac platformokat, mert a Microsoft és az Apple is jelentős időt és költséget fordított a hangutasítás vagy a hangsegéd szoftverek alap operációs rendszerükbe történő felvételére.
Habár a helyzet nem komor a Linux esetében, mivel számos csúcstechnológiával rendelkezik, a szabad és a nyílt forráskódú univerzum egy lépéssel hátrébb marad, különösen a hangutasító eszközök esetében.
Natív Linux beszédfelismerés
Egyetlen Linux disztribúció sem koncentrál a beszédfelismerésre. A beszédfelismerést támogató alkalmazások azonban egy sor nyílt forráskódú könyvtárra támaszkodnak, beleértve a Sphinxet, a Kaldi-t, a Julius-t és a Mozilla Deepspeech-et.
Negatív tér / Makett. Fotók
Ezek a könyvtárak egy beszédkorpuszra támaszkodva kínálják a hangok variációit az AI képzése érdekében, és ezért helyesen fordítják a beszédet szöveggé. A nyílt forráskódú projektek azonban kevésbé kifinomultak (mivel kisebb mértékben járulnak hozzá az AI képzéséhez), ami azt jelenti, hogy a legtöbb Linux-os szövegfelolvasó alkalmazás gyakran gátolja az átalakítást. Általában annyira alaposan megbotlik, hogy nem világos, mi lehetett az eredeti beszéd.
A Linux Speech to Text opciói
Használja az öt megoldási út egyikét.
- Bízzon a disztribúció táraiban elérhető natív Linux-alkalmazásokban - ha vannak ilyenek.
- Az Amazon elérhetővé tette az Alexát Linux alatt, beleértve a Raspberry Pi-t is. Nagyon sok egyedi csípést kell végrehajtania ahhoz, hogy ez az elrendezés működjön, de működni fog.
- Böngészőjében nyissa meg a Google Speech API-t a DictationIO segítségével. Ez a szolgáltatás csak diktálás céljából működik; nem használhatja hangutasításra. A Google mesterséges intelligenciája hajtja, így a minőség jó.
- Használjon olyan szolgáltatást, mint az Alexa vagy a Google Assistant, a Linux hangutasító segédprogramjaként a Triggercmd szolgáltatáson keresztül. A Triggercmd fut a számítógépén; használja az Alexa vagy a Google Assistant meghívására, és kérje meg ezeket az eszközöket, hogy a parancsod alapján hajtsanak végre bizonyos Bash parancsfájlokat. Mondjon valamit: "OK Google, kérdezze meg a trigger parancsot a számológép megnyitásához." A Google Segéd a Triggercmd közvetítőjeként szolgál a Bash szkript futtatásához, amelyet a "nyissa meg a számológépet" kifejezés határoz meg.
- Használja a Wine-t vagy egy virtuális gépet olyan szoftverekkel Windows-hoz, mint a Dragon NaturallySpeaking. Megfelelő beállítással használhatja a Dragon motort az átíráshoz, bár ez a megoldás nem működik hangutasító alkalmazásoknál.