close
阿裡巴巴跨界挖來的這位世界級音頻專傢,是要調教AI聲優嗎?
阿裡巴巴今天(11月30日)正式宣佈世界級音頻專傢馮津偉入職人工智能團隊iDST。馮津偉擔任智能語音交互團隊研究員,負責語音交互設備端的聲學設計和信號處理研究工作。
大牛是何許人
馮津偉這個名字可能還不在你的輸入法詞庫裡,不熟悉這塊領域的話,他的履歷你可能看起來也沒什麼亮點,沒有很多TOP院校打頭,沒有很多你聽過的名企掛職。但是瞭解的話還是會深深吸一美國商標註冊推薦口氣。
美國商標登記台中 馮津偉博士
馮津偉博士本科畢業於南京大學電子科學專業,又先後在南京大學聲學研究所和南洋理工大學攻讀碩士學位,後又赴美深造,於2000 年獲得弗吉尼亞理工大學聲學博士學位。
南京大學聲學研究所是國內頂級的聲學研究機構,加上師從音頻聲學泰鬥沙傢正先生,馮津偉在就讀期間就和導師研制出瞭全球第一臺揚聲器紙盆共振頻率的自動測試系統,大大提高瞭國內電聲行業的生產效率。而弗吉尼亞理工大學的VAL實驗室又在主動降噪領域非常著名。
博士畢業之後的馮津偉,加入瞭Polycom(寶利通),寶利通公司是語音和視頻協作解決方案領域的全球領導者,專業開發、制造和銷售高質量音視頻會議系統及解決方案,占全球視頻會議市場份額的第一。
作為寶利通的聲學設計和信號處理首席工程師,馮津偉博士工作瞭17年,擁有10幾項美國專利,大部分都已產品化,成為世界級的音頻專傢。他曾主持開發創新型的視頻跟蹤系統,用於多人視頻會議時攝像頭的精準定位。
為瞭搞事,阿裡巴巴把世界級大牛一個個納入iDST。
阿裡巴巴的iDST(Institute of Data Science Technologies)被稱為“最神秘的部門”。據一財網介紹,這個“數據科學與技術研究院”的員工大多都具有科學傢背景。目前這個部門大約有150名員工,其中大概50人在杭州。在組織架構上,iDST分屬於阿裡雲。iDST要做的就是最前沿的科技與數據研究。今年“雙11”賣的火熱的“天貓精靈”就是iDST的研發成果。
阿裡巴巴集團首席技術官王堅對iDST的定位是,“iDST要做阿裡其他部門不願做、也做不瞭的事情。”
那這些其他部門都做不瞭的事,馮津偉能做嗎?
阿裡巴巴iDST語音團隊負責人鄢志傑表示:“馮博士的入職,是物理學和互聯網間的‘跨界’。阿裡嚴肅看待智能語音交互技術全鏈路,逐步組建世界級專傢團隊。從源頭和信號采集開始,在端上做突破性的智能語音交互體驗。”
據阿裡雲的官方說法,此前,iDST語音團隊的技術成果已通過阿裡雲人工智能ET等對外輸出,在法庭庭審識別、智能客服、視頻審核和實時字幕轉寫、聲紋驗證、物聯網等多個場景成功應用。全國有近300傢法院和超過6000傢法庭在使用ET,每年有超過1.2億次客服電話由ET協助人類接聽。
在語音交互產品方面,阿裡iDST研究的技術平臺能夠精準轉換用戶的語音為對互聯網內容和服務的意圖,如觸達手機、IoT設備、互聯網汽車、電視、智能音箱等各類終端,如與斑馬網絡、上汽合作的的榮威互聯網汽車、與海爾合作的人工智能電視等。
而馮津偉入職後將依托其在聲學與信號處理領域的學習工作背景,主持領導語音交互設備端的研究工作。聲學是物理學分支學科之一,研究媒質中機械波的產生、傳播、接收和效應。以時下最熱門的智能音箱為例,如何選擇麥克風的材質、擺放位置、結構,就是聲學設計要解決的問題。
而且,現在市場上所有已經研發出來的智能音箱產品,也都無一例外的將機器的發聲作為賣點之一。作為一個能和人類進行交流的物種,勢必要考慮到它的發聲給用戶帶來的感受,就像聽聲優說話,可能比聽新聞聯播式的字正腔圓給人帶來的愉悅度要高一些。清晰的聲音信號轉化,比帶著雜音的對話更讓人舒服。如果你是一個宅男,你一定希望聽到一個軟萌妹子在說話,而不是生硬死板,還摻雜著噪音的機器識別發音。
“天貓精靈”是阿裡巴巴人工智能實驗室研發的第一代智能語音終端設備,內置第一代中文人機交流系統AliGenie,可以進行人機交流,聽得懂普通話語音指令,目前可實現智能傢居控制、語音購物、手機充值、音頻音樂播放等功能。因為被阿裡整合瞭支付寶、淘寶、菜鳥物流,“天貓精靈”可以幫你購物,查快遞,叫外賣。
其中不能不提的一項技術就是它的聲紋識別功能,把聲信號轉化成電信號,再進行計算機識別。而遠場語音識別在實際應用中受到噪聲、回聲、混響的幹擾太大,隻有盡可能地保證聲音的高保真,才能為後續的算法處理提供高質量的數據。所以如何避免因收集到的信號太模糊導致後續的語音識別、合成和同聲傳譯效果不好,就成瞭現在迄待解決的問題。
馮津偉博士的研究領域,正好涉及瞭類似的問題。加入阿裡之後,馮津偉博士在傳統行業的聲學設計經驗可以與阿裡的業務完美對接。聲學設計與信號處理作為前端信號處理的主要技術,毫無疑問將會為阿裡巴巴的整個語音識別系統奠定堅實的數據基礎。
關於加入阿裡巴巴,馮津偉認為是一次全新的機會。他表示:“過去自己的專業知識基本用於會議模式,而未美國商標類別來阿裡豐富的智能交互場景將為聲學設計與信號處理的發展提供寶貴的實戰經驗。”
而新興互聯網企業的高速發展,加上阿裡巴巴與他在價值觀上的契合,也成為瞭馮津偉選擇加入阿裡巴巴 iDST 的重要原因。
馮津偉博士還對Al科技評論表示,以“達摩院”為代表的研究機構逐步建立,阿裡巴巴的研發實力肯定會比以前更上一層樓,並且可能會看到很多與眾不同的創新,“現在的智能音箱實際上跟著亞馬遜 Echo 走的很多,但阿裡巴巴不一定會沿著它的老路,我們甚至可以引領行業。”
據阿裡巴巴iDST透露,馮津偉已參與一秘密項目開發,項目在全球沒有先例。顯然外界對馮津偉博士進入阿裡的這份神秘“投名狀”還是有點期待的。
阿裡巴巴今天(11月30日)正式宣佈世界級音頻專傢馮津偉入職人工智能團隊iDST。馮津偉擔任智能語音交互團隊研究員,負責語音交互設備端的聲學設計和信號處理研究工作。
大牛是何許人
馮津偉這個名字可能還不在你的輸入法詞庫裡,不熟悉這塊領域的話,他的履歷你可能看起來也沒什麼亮點,沒有很多TOP院校打頭,沒有很多你聽過的名企掛職。但是瞭解的話還是會深深吸一美國商標註冊推薦口氣。
美國商標登記台中 馮津偉博士
馮津偉博士本科畢業於南京大學電子科學專業,又先後在南京大學聲學研究所和南洋理工大學攻讀碩士學位,後又赴美深造,於2000 年獲得弗吉尼亞理工大學聲學博士學位。
南京大學聲學研究所是國內頂級的聲學研究機構,加上師從音頻聲學泰鬥沙傢正先生,馮津偉在就讀期間就和導師研制出瞭全球第一臺揚聲器紙盆共振頻率的自動測試系統,大大提高瞭國內電聲行業的生產效率。而弗吉尼亞理工大學的VAL實驗室又在主動降噪領域非常著名。
博士畢業之後的馮津偉,加入瞭Polycom(寶利通),寶利通公司是語音和視頻協作解決方案領域的全球領導者,專業開發、制造和銷售高質量音視頻會議系統及解決方案,占全球視頻會議市場份額的第一。
作為寶利通的聲學設計和信號處理首席工程師,馮津偉博士工作瞭17年,擁有10幾項美國專利,大部分都已產品化,成為世界級的音頻專傢。他曾主持開發創新型的視頻跟蹤系統,用於多人視頻會議時攝像頭的精準定位。
為瞭搞事,阿裡巴巴把世界級大牛一個個納入iDST。
阿裡巴巴的iDST(Institute of Data Science Technologies)被稱為“最神秘的部門”。據一財網介紹,這個“數據科學與技術研究院”的員工大多都具有科學傢背景。目前這個部門大約有150名員工,其中大概50人在杭州。在組織架構上,iDST分屬於阿裡雲。iDST要做的就是最前沿的科技與數據研究。今年“雙11”賣的火熱的“天貓精靈”就是iDST的研發成果。
阿裡巴巴集團首席技術官王堅對iDST的定位是,“iDST要做阿裡其他部門不願做、也做不瞭的事情。”
那這些其他部門都做不瞭的事,馮津偉能做嗎?
阿裡巴巴iDST語音團隊負責人鄢志傑表示:“馮博士的入職,是物理學和互聯網間的‘跨界’。阿裡嚴肅看待智能語音交互技術全鏈路,逐步組建世界級專傢團隊。從源頭和信號采集開始,在端上做突破性的智能語音交互體驗。”
據阿裡雲的官方說法,此前,iDST語音團隊的技術成果已通過阿裡雲人工智能ET等對外輸出,在法庭庭審識別、智能客服、視頻審核和實時字幕轉寫、聲紋驗證、物聯網等多個場景成功應用。全國有近300傢法院和超過6000傢法庭在使用ET,每年有超過1.2億次客服電話由ET協助人類接聽。
在語音交互產品方面,阿裡iDST研究的技術平臺能夠精準轉換用戶的語音為對互聯網內容和服務的意圖,如觸達手機、IoT設備、互聯網汽車、電視、智能音箱等各類終端,如與斑馬網絡、上汽合作的的榮威互聯網汽車、與海爾合作的人工智能電視等。
而馮津偉入職後將依托其在聲學與信號處理領域的學習工作背景,主持領導語音交互設備端的研究工作。聲學是物理學分支學科之一,研究媒質中機械波的產生、傳播、接收和效應。以時下最熱門的智能音箱為例,如何選擇麥克風的材質、擺放位置、結構,就是聲學設計要解決的問題。
而且,現在市場上所有已經研發出來的智能音箱產品,也都無一例外的將機器的發聲作為賣點之一。作為一個能和人類進行交流的物種,勢必要考慮到它的發聲給用戶帶來的感受,就像聽聲優說話,可能比聽新聞聯播式的字正腔圓給人帶來的愉悅度要高一些。清晰的聲音信號轉化,比帶著雜音的對話更讓人舒服。如果你是一個宅男,你一定希望聽到一個軟萌妹子在說話,而不是生硬死板,還摻雜著噪音的機器識別發音。
“天貓精靈”是阿裡巴巴人工智能實驗室研發的第一代智能語音終端設備,內置第一代中文人機交流系統AliGenie,可以進行人機交流,聽得懂普通話語音指令,目前可實現智能傢居控制、語音購物、手機充值、音頻音樂播放等功能。因為被阿裡整合瞭支付寶、淘寶、菜鳥物流,“天貓精靈”可以幫你購物,查快遞,叫外賣。
其中不能不提的一項技術就是它的聲紋識別功能,把聲信號轉化成電信號,再進行計算機識別。而遠場語音識別在實際應用中受到噪聲、回聲、混響的幹擾太大,隻有盡可能地保證聲音的高保真,才能為後續的算法處理提供高質量的數據。所以如何避免因收集到的信號太模糊導致後續的語音識別、合成和同聲傳譯效果不好,就成瞭現在迄待解決的問題。
馮津偉博士的研究領域,正好涉及瞭類似的問題。加入阿裡之後,馮津偉博士在傳統行業的聲學設計經驗可以與阿裡的業務完美對接。聲學設計與信號處理作為前端信號處理的主要技術,毫無疑問將會為阿裡巴巴的整個語音識別系統奠定堅實的數據基礎。
關於加入阿裡巴巴,馮津偉認為是一次全新的機會。他表示:“過去自己的專業知識基本用於會議模式,而未美國商標類別來阿裡豐富的智能交互場景將為聲學設計與信號處理的發展提供寶貴的實戰經驗。”
而新興互聯網企業的高速發展,加上阿裡巴巴與他在價值觀上的契合,也成為瞭馮津偉選擇加入阿裡巴巴 iDST 的重要原因。
馮津偉博士還對Al科技評論表示,以“達摩院”為代表的研究機構逐步建立,阿裡巴巴的研發實力肯定會比以前更上一層樓,並且可能會看到很多與眾不同的創新,“現在的智能音箱實際上跟著亞馬遜 Echo 走的很多,但阿裡巴巴不一定會沿著它的老路,我們甚至可以引領行業。”
據阿裡巴巴iDST透露,馮津偉已參與一秘密項目開發,項目在全球沒有先例。顯然外界對馮津偉博士進入阿裡的這份神秘“投名狀”還是有點期待的。
文章標籤
全站熱搜
留言列表