国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > Java > 正文

使用Pinyin4j進行拼音分詞的方法

2024-07-13 10:15:53
字體:
來源:轉載
供稿:網友

使用maven引入相關的jar

<dependency> <groupId>com.belerweb</groupId> <artifactId>pinyin4j</artifactId> <version>2.5.1</version></dependency>

創建Pinyin4jUtil

package com.os.core.util.solr;import net.sourceforge.pinyin4j.PinyinHelper;import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType;import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;import java.util.ArrayList;import java.util.Hashtable;import java.util.List;import java.util.Map;/** * 漢語拼音工具類 * Created by PengSongHe on 2017/2/9 0009. */public class Pinyin4jUtil { public static void main(String[] args) {  String str = "測試";  String pinyin = Pinyin4jUtil.converterToSpell(str);  System.out.println(str + " pin yin :" + pinyin);  pinyin = Pinyin4jUtil.converterToFirstSpell(str);  System.out.println(str + " short pin yin :" + pinyin); } /**  * 漢字轉換位漢語拼音首字母,英文字符不變,特殊字符丟失 支持多音字,生成方式如(長沙市長:cssc,zssz,zssc,cssz)  *  * @param chines 漢字  * @return 拼音  */ public static String converterToFirstSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得當前漢字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       // 取首字母       pinyinName.append(strs[j].charAt(0));       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }     // else {     // pinyinName.append(nameChar[i]);     // }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); } /**  * 漢字轉換位漢語全拼,英文字符不變,特殊字符丟失  * 支持多音字,生成方式如(重當參:zhongdangcen,zhongdangcan,chongdangcen  * ,chongdangshen,zhongdangshen,chongdangcan)  *  * @param chines 漢字  * @return 拼音  */ public static String converterToSpell(String chines) {  StringBuffer pinyinName = new StringBuffer();  char[] nameChar = chines.toCharArray();  HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();  defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE);  defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE);  for (int i = 0; i < nameChar.length; i++) {   if (nameChar[i] > 128) {    try {     // 取得當前漢字的所有全拼     String[] strs = PinyinHelper.toHanyuPinyinStringArray(       nameChar[i], defaultFormat);     if (strs != null) {      for (int j = 0; j < strs.length; j++) {       pinyinName.append(strs[j]);       if (j != strs.length - 1) {        pinyinName.append(",");       }      }     }    } catch (BadHanyuPinyinOutputFormatCombination e) {     e.printStackTrace();    }   } else {    pinyinName.append(nameChar[i]);   }   pinyinName.append(" ");  }  // return pinyinName.toString();  return parseTheChineseByObject(discountTheChinese(pinyinName.toString())); } /**  * 去除多音字重復數據  *  * @param theStr  * @return  */ private static List<Map<String, Integer>> discountTheChinese(String theStr) {  // 去除重復拼音后的拼音列表  List<Map<String, Integer>> mapList = new ArrayList<Map<String, Integer>>();  // 用于處理每個字的多音字,去掉重復  Map<String, Integer> onlyOne = null;  String[] firsts = theStr.split(" ");  // 讀出每個漢字的拼音  for (String str : firsts) {   onlyOne = new Hashtable<String, Integer>();   String[] china = str.split(",");   // 多音字處理   for (String s : china) {    Integer count = onlyOne.get(s);    if (count == null) {     onlyOne.put(s, new Integer(1));    } else {     onlyOne.remove(s);     count++;     onlyOne.put(s, count);    }   }   mapList.add(onlyOne);  }  return mapList; } /**  * 解析并組合拼音,對象合并方案(推薦使用)  *  * @return  */ private static String parseTheChineseByObject(   List<Map<String, Integer>> list) {  Map<String, Integer> first = null; // 用于統計每一次,集合組合數據  // 遍歷每一組集合  for (int i = 0; i < list.size(); i++) {   // 每一組集合與上一次組合的Map   Map<String, Integer> temp = new Hashtable<String, Integer>();   // 第一次循環,first為空   if (first != null) {    // 取出上次組合與此次集合的字符,并保存    for (String s : first.keySet()) {     for (String s1 : list.get(i).keySet()) {      String str = s + s1;      temp.put(str, 1);     }    }    // 清理上一次組合數據    if (temp != null && temp.size() > 0) {     first.clear();    }   } else {    for (String s : list.get(i).keySet()) {     String str = s;     temp.put(str, 1);    }   }   // 保存組合數據以便下次循環使用   if (temp != null && temp.size() > 0) {    first = temp;   }  }  String returnStr = "";  if (first != null) {   // 遍歷取出組合字符串   for (String str : first.keySet()) {    returnStr += (str + ",");   }  }  if (returnStr.length() > 0) {   returnStr = returnStr.substring(0, returnStr.length() - 1);  }  return returnStr; }}

以上這篇使用Pinyin4j進行拼音分詞的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持VeVb武林網。


注:相關教程知識閱讀請移步到JAVA教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 绥化市| 聂荣县| 平邑县| 阜平县| 南平市| 大庆市| 永济市| 佛冈县| 临江市| 荔浦县| 斗六市| 颍上县| 荔波县| 定襄县| 全南县| 永兴县| 连山| 怀远县| 梅州市| 古交市| 仪陇县| 望谟县| 武宣县| 贡山| 江北区| 廉江市| 高平市| 宜州市| 道孚县| 洪洞县| 调兵山市| 水富县| 古浪县| 尚义县| 土默特右旗| 连山| 蒙城县| 金山区| 南江县| 隆化县| 五大连池市|