· Joseph · AI & Machine Learning  · 2 min read

[Day 22] Google Cloud Speech-to-Text - 2

這個步調而言,今天就是Cloud Speech-to-Text API串接,前情提要一樣是要先建立project、Enable API、下載credential json之類的。忘了的人記得看這系列第三天的文章。

好,現在要先來把test data抓下來,我們可以在google的github上找到很多檔案可以測試,我這邊抓的是audio.raw,並把它放到testdata/speech_to_text資料夾下。

file structure

萬事俱備就只欠東風,我們來看看demo code吧:

func DemoCode(filename string) {
  ctx := context.Background()

  // Creates a client.
  client, err := speech.NewClient(ctx)
  if err != nil {
    log.Fatalf("Failed to create client: %v", err)
  }

  // Reads the audio file into memory.
  data, err := ioutil.ReadFile(filename)
  if err != nil {
    log.Fatalf("Failed to read file: %v", err)
  }

  // Detects speech in the audio file.
  resp, err := client.Recognize(ctx, &speechpb.RecognizeRequest{
    Config: &speechpb.RecognitionConfig{
      Encoding:        speechpb.RecognitionConfig_LINEAR16,
      SampleRateHertz: 16000,
      LanguageCode:    "en-US",
    },
    Audio: &speechpb.RecognitionAudio{
      AudioSource: &speechpb.RecognitionAudio_Content{Content: data},
    },
  })
  if err != nil {
    log.Fatalf("failed to recognize: %v", err)
  }

  // Prints the results.
  for _, result := range resp.Results {
    for _, alt := range result.Alternatives {
      fmt.Printf("\"%v\" (confidence=%3f)\n", alt.Transcript, alt.Confidence)
    }
  }
}

main.go裡面則僅只是呼叫speech_to_text.DemoCode("./testdata/speech_to_text/audio.raw"),接到了音檔以後,output就會吐出text給你看。 output

OK,今天的文章就到這邊,謝謝大家的觀看。

今天的code可以看github:https://github.com/josephMG/ithelp-2019/tree/Day-22

Back to Blog

Related Posts

View All Posts »

[Day 30] Google AI & ML Products 系列總結

這系列文章出自於一個無窮無盡的bug的解題時間,想不到如何解bug、又想不出要寫什麼主題,參考完大家的方向以後,我發現這類型的文章很少、又很實用,才下定決心透過鐵人賽推廣 Google AI & ML Products。 在這次的挑戰裡,給了自己三個目標: 更熟悉docker 開始玩Golang 入門大部分的Google AI & ML Products 但也因為Google AI & ML Products太多了,所以把它分了很多子系列進行,現在再來回顧一下這次的內容。 前面先來個提醒,如果過程中你們有Deploy model做Online predict的,如果測完一定要記得刪掉,不然你deploy的model就會一直被收費喔。

[Day 23] Google Cloud Speech-to-Text - 子系列最終章

因為這邊沒有AutoML的關係,所以今天是Speech-to-Text的最後一篇。 在doc文件裡的這篇是介紹如何使用Mic直接stream翻譯成文字,但我docker環境沒特別access host的mic,所以沒有測試這段。 中文Speech-to-Text 仔細測了一下,昨天的範例無法直接串接中文語音轉文字,原來是因為昨天使用的版本是v1,但中文相關的分析必須使用v1p1beta1,另一個原因是之前的檔案try.m4a一直測試都無法讀取,我把他轉為try.mp3以後,才可以順利解析。

[Day 21] Google Cloud Speech-to-Text - 1

今天來講第六個服務,寫到第21天終於第六個了。這個服務跟前幾天的Text-to-Speech剛好相反,是把聲音轉成文字。這服務號稱可以辨識120種語言跟其變化,更開心的是它可以辨識中文,還有廣東話、日文之類的語言也都可以。 當然每個系列的第一天都是玩一下他提供的demo,不過這很像是最後一個有提供demo的服務,接下來還得要調整步調。 大家可以先透過錄音程式錄一段話,然後再將檔案上傳: voice recorder

[Day 29] Google AI Hub - 2

今天要來玩的是AI Hub裡面的Reusing a pipeline component,對Python超不熟的我弄了超久。 這邊會需要run起tensorflow的docker docker pull tensorflow/tensorflow:latest-py3-jupyter docker run -it --rm -v $(realpath ~/notebooks):/tf/notebooks -p 8888:8888 --name jupyter tensorflow/tensorflow:latest-py3-jupyter