黑人一区二区三区中文字幕,黄页网站在线观看,欧美在线观看一区

1.問題的描述

用Python進行文本處理時，有時候處理的文本中包含中文、英文、日文等多個語系的文本，有時候不能同時進行處理，這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能，langid目前支持97種語言的檢測，非常好用。

2.程序的代碼

以下Python是調用langid工具包來對文本進行語言檢測與判別的程序代碼：

				?

									import langid                             #引入langid模塊 

									def translate(inputFile, outputFile): 

									  fin = open(inputFile, 'r')                  #以讀的方式打開輸入文件 

									  fout = open(outputFile, 'w')                 #以寫的方式打開輸出文件 

									  for eachLine in fin:                     #依次讀入每一行 

									    line = eachLine.strip().decode('utf-8', 'ignore')   #去除每行的首位空格等，并統一轉化成Unicode 

									    lineTuple = langid.classify(line)           #調用langid來對該行進行語言檢測 

									    if lineTuple[0] == "zh":               #如果該行語言大部分為中文，則不進行任何處理 

									      continue

									    outstr = line                     #如果該行語言為非中文，則準備輸出 

									    fout.write(outstr.strip().encode('utf-8') + '\n')   #輸出非中文的行，從Unicode轉化成utf-8輸出 

									  fin.close() 

									  fout.close() 

									if __name__ == '__main__':                      #相當于main函數 

									  translate("myInputFile.txt", "myOutputFile.txt")