oracle 11g RMAN 异机恢复(linux to windows)

汉字统计

Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)
Total Submission(s): 22152    Accepted Submission(s): 12066


Problem Description
统计给定文本文件中汉字的个数。
 

Input
输入文件首先包含一个整数n,表示测试实例的个数,然后是n段文本。
 

Output
对于每一段文本,输出其中的汉字的个数,每个测试实例的输出占一行。

[Hint:]从汉字机内码的特点考虑~

 

Sample Input
2 WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa! 马上就要期末考试了Are you ready?
 

Sample Output
14 9

分析:

1、汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。

2、每个汉字机内码使用二个字节,每个字节最高位一位为 1 。计算机中,补码第一位是符号位, 1 表示为 负数,所以,汉字机内码的每个字节表示的十进制数都是负数,统计输入字符串含有几个汉字,只只需求出字符串中小于 0 的字符有几个,将它除以 2 就是汉字的个数。

3、C / C++ 中,char 类型占 1 个字节,Java 中char 类型占 2 个字节。因为 Java 中无论是汉字还是英文字母都是用 Unicode 编码来表示的,一个 Unicode 码是 16 位,每字节是 8 位,所以一个 Unicode 码占两字节。但是英文字母比较特殊,源自于 8 位(1 字节)的 ASCII 码,于是在 Unicode 码仅使用了低 8 位(1 字节)就可以表示,高 8 位的话不使用也无所谓。所以,在这里不能使用 char 类型判断汉字机内码,需要使用 byte 类型。

import java.util.Scanner;

public class Main {

	public static void main(String[] args) {
		Scanner scanner = new Scanner(System.in);
		int n = scanner.nextInt();
		scanner.nextLine();

		while (n-- != 0) {
			String str = scanner.nextLine();
			byte[] bys = str.getBytes();

			int count = 0;
			for (int i = 0; i < bys.length; i++) {
				if (bys[i] < 0) {
					count++;
				}
			}
			System.out.println(count / 2);
		}
	}
}

oracle 11g RMAN 异机恢复(linux to windows),古老的榕树,5-wow.com

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。