第四十三章:語音通話模型的制作(二更)
書迷正在閱讀:重生之全能明星學霸不太易、紅樓之賈赦修仙記、[綜漫]在下才不要穿小洋裙、抗日之超級壯丁、紅樓之貴妃是個小花精、拯救二次元美女、他的陸太太很甜、抗戰(zhàn)雙子星、變身最強之病弱七實、大宋超級學霸
“宿主,你能要點臉不?你哪來的自信,出賣身體,能賺幾千萬?!?/br> “我……我……”林奇竟然無言以對。 林奇仔細思考了下,發(fā)現(xiàn)自身記憶力驚人,學知識的速度快。但是也不能教授給別人,別人學不來的,他們沒有這些機遇。 那利用已經(jīng)學習到的知識,怎么能在短時間內(nèi)賺那么多的錢呢? 自己是把學校里面的東西學會了,但是這該怎么賺錢?辦補習班,來錢太慢了。 除此以外林奇也就學習了電池制造相關(guān)的東西,正是因為要等待大規(guī)模生產(chǎn)才這么缺錢,所以這條路也走不通。 那就剩余一個了——自己之前學習的編程,還在算法大賽中取得第二名,贏得過20萬獎金。 但是應該通過什么賺錢呢,開發(fā)出來游戲嗎?小游戲是簡單,但是沒有一個好的創(chuàng)意,很難有大的影響力。大的游戲又不是一時半會能開發(fā)出來的。 林奇拿著手機打開了手機內(nèi)的軟件。 打車軟件,共享單車軟件,新聞客戶端,郵件系統(tǒng),短信,語音,視頻,聊天工具。 看了一個又一個的軟件,林奇突然腦中一閃,語音通話。 現(xiàn)在聊天工具能直接進行視頻和語音通話,還有一些軟件只有語音通話功能。 這些語音通話軟件有一個共同的特點就是都消耗的是流量,不用話費。 最近幾年,語音通話的軟件是越來越多,并且不用話費。 有很大一部分人都用這個來代替打電話。但是因為這些需要的是流量,所以通話質(zhì)量不是那么的有保證,質(zhì)量和和網(wǎng)絡的穩(wěn)定性成正比。 如果是在良好的4g網(wǎng)絡下或者ifi環(huán)境下,通話質(zhì)量都挺好的,但是在3g甚至2g,或者信號不穩(wěn)定的地方,發(fā)文字還正常,但是語音通話就不行,通話雙方會感覺卡頓,對方聽不到,聽不清這是經(jīng)常會發(fā)生的事情。 如果能開發(fā)出一個軟件可以在各種復雜的網(wǎng)絡環(huán)境下讓語音通話都依然流暢,應該很有市場。 林奇通過看手機上的各種軟件,想到了這么一個賺錢的機會。 怎么才能實現(xiàn)這個目標呢?最好的就是發(fā)送文字,因為文字占用的帶寬最少了,即使網(wǎng)絡很不穩(wěn)定也能收到,除非是完全沒有網(wǎng)絡。 最后林奇想到了一個非常精妙的方法,能實現(xiàn)這個功能。 那就是通過機器學習來建立每個人的音色庫,然后再把不同的文字用上不同的語氣,只要這個個人的模型訓練好,發(fā)送對方的手機里面,然后把要說的話轉(zhuǎn)換為文字,每次都只發(fā)送文字過去,這樣需要傳輸?shù)男畔⒕蜁『芏唷?/br> 雖然這個方法想起來非常的簡單,但是做起來可不是這么容易的。 首先每個人都有一個自己的語音模型,訓練這個模型需要有一個很優(yōu)秀的訓練好的模型,然后做遷移學習。 但是訓練基礎模型的時候,是需要很多數(shù)據(jù)的,程序林奇很快的就做好了,但是沒有語音數(shù)據(jù)是硬傷。 最后林奇收集了很多的網(wǎng)絡上公開的音頻資料,來輸入到模型中進行訓練,剛開始的時候找來了很多的漢語的音頻。包括從電視劇,電影還有廣播,新聞等里面抽取的音頻。 等訓練好之后林奇測試之后發(fā)現(xiàn)針對標準的普通話,這個表現(xiàn)很好,但是如果是方言甚至是另一種少數(shù)民族,比如蒙古語,這個軟件表現(xiàn)的就非常的不盡人意。 后來林奇換了一個思路,不把每個人的語音轉(zhuǎn)換為文字。而是讓機器自己發(fā)明一種能發(fā)音的文字,不需要人類能看懂,只需要這個軟件自己能看懂就好,可以把聽到的任何聲音都轉(zhuǎn)換為這種機器自己能識別的文字。 修改了核心的算法之后,林奇再次把數(shù)據(jù)輸入進去,同時這次增加了很多的其他的數(shù)據(jù),包括英語,德語,日語……幾十種語言的數(shù)據(jù)。還有很多的大自然的聲音,樂器的聲音,等等。 電腦分析這些數(shù)據(jù)建立一個模型過程是很慢的,經(jīng)過漫長的等待之后,終于重新生成了一個模型。 經(jīng)過測試之后,效果出奇的好,林奇發(fā)現(xiàn)尤其是針對有規(guī)律的東西,包括語言,樂器這些東西,都能有很好的效果。 然后這些數(shù)據(jù)經(jīng)過壓縮之后,體積比文字的還小了很多,即使網(wǎng)絡環(huán)境再不好,只要不是完全沒有,通話的質(zhì)量都是很完美的。 但是美中不足的是,針對不太規(guī)律的東西,這個模型處理的效果就不是很好,比如一些環(huán)境噪音或者大自然的風聲雨聲鳥叫等。 林奇接著又去修改了模型,但是訓練后的結(jié)果都不是很好。 后來林奇想了想“環(huán)境噪音,在語音通話過程中,人們應該是不想要的,我干嘛還要費那么大的力氣給加上。這不正是幾千塊錢的所謂的主動降噪耳機,或者是骨傳導耳機追求的降噪的功能嗎?” 想至此,林奇想抽自己兩巴掌,白白浪費了那么多時間。 至于一些風聲什么的,林奇也有了一個很好的解決方法,就是在算法里面判斷這個聲音,如果是沒有規(guī)律的,但是和環(huán)境噪音又有些區(qū)別的,那么就保留原有的語音通話,只有這種有語言的才智能的運用自己這套系統(tǒng)。 這個系統(tǒng)的價值在于能讓語言的傳輸大大減小體積,同時還能高度還原原聲,甚至帶有主動降噪功能。 而這個系統(tǒng)的難點在于模型的訓練。 訓練的時候剛開始針對的是普通話,到了后來,林奇徹底的放開了自己的思維,讓機器自己去生成一種能傳輸?shù)淖约赫J識的語言,這樣效果大大的提升了,不用針對每一種語言來訓練好一個模型,而是針對所有的聲音,訓練出了一套通用的模型。 在使用的時候,只需要把這個模型加載到用戶的手機,用戶只需要說幾句話,模型就會自動生成對應的音色,還有對應的語言的機器翻譯。 通過實際的使用,林奇測試發(fā)現(xiàn),這完全秒殺了世面上所有的語音通話軟件。