AIによるデータ統合システム
統一フォーマットのないメール情報からの属性検知精度98%超を実現し類似度分析業務を自動化
サービス概要
テキストデータの判別と内容理解、類似度の評価、基準内のデータを抽出、の3段階からなるAIモデルを開発。
まずメール本文・Excel・Word・PDF等のファイルから属性情報を抽出、次に付加情報の推定と分類・整理、最後に内容を比較しデータを抽出します。これにより、フォーマットがバラバラで統一された形式に納めるのが難しかったことや、文脈により意味合いが変化する専門用語の理解の判別といった、人間や従来システムでは対応が難しい問題を解決します。
まずメール本文・Excel・Word・PDF等のファイルから属性情報を抽出、次に付加情報の推定と分類・整理、最後に内容を比較しデータを抽出します。これにより、フォーマットがバラバラで統一された形式に納めるのが難しかったことや、文脈により意味合いが変化する専門用語の理解の判別といった、人間や従来システムでは対応が難しい問題を解決します。
- 業種:システム開発
- PJ種別:AIによるデータ統合システム
- 技術:文章の文脈把握・属性分類・類似度分析・スコアリング・抽出
データ収集・分析・抽出の流れ
本システム導入の背景は、既存のアナログ業務として存在していた「1日約1000件のメールを、添付ファイルも
含めて内容確認し、ジャンル別に整理・分類し、類似度を評価した上で一定以上の基準を満たしたペアを抽出する作業」において、4人がかりで1日かけても終えることが難しく、各工程のミスも多発していたことから検討が始まりました。
システム化を試みたこともありましたが、メール本文のフォーマットが統一されておらず、添付データの形式も様々で
内容も多岐に渡ることから統一化が難しく、AIによる内容理解と類似度の判断でのアナログ作業の削減とプロセス全体の自動化が求められていました。
含めて内容確認し、ジャンル別に整理・分類し、類似度を評価した上で一定以上の基準を満たしたペアを抽出する作業」において、4人がかりで1日かけても終えることが難しく、各工程のミスも多発していたことから検討が始まりました。
システム化を試みたこともありましたが、メール本文のフォーマットが統一されておらず、添付データの形式も様々で
内容も多岐に渡ることから統一化が難しく、AIによる内容理解と類似度の判断でのアナログ作業の削減とプロセス全体の自動化が求められていました。

文脈や強調点を把握した上での属性検出・分類・整理
複数の呼称が存在する専門用語なども的確に認識することや、
添付データ内の入り組んだ数値情報を整理した上での合計値の算出など、
複雑な処理も短時間で行うことができます。
文脈を理解した上で情報を分類・整理していくため、
これが次の類似度分析に活きてきます。
高精度な類似度分析・評価技術
検出された属性情報を比較して、類似度の比較・評価を高精度に行うには、最新のAI技術を必要とします。
人間や従来システムだと指定した項目のみを比較していく処理にとどまるため、単純なキーワードによる類似度の評価を行うことになりますが、文章全体を読み込んで理解した上で、検出された全ての属性を照合していくため、大幅な精度アップが実現しました。


実用的な処理速度
本システムは、約1000件のメール・添付ファイル等にあるテキスト情報に一連の処理をして抽出するまでの所要時間が30分程度です。
午前中に受け取った情報を、昼休憩中にシステム処理を走らせ、午後には抽出データをチェックすることも可能になります。
導入効果・まとめ
本システムの導入により、文章の読み込みから類似度分析、抽出までの自動化が可能です。
AIの活用で内容の認識や分類ミスを大幅に削減し、精度の向上と人件費の大幅な削減を同時に実現しました。
類似度の比較・評価の部分にはAIを使い、除外項目に該当する情報の選別等は従来のシステムを使うなど最適化を進めた結果、実用的な処理速度と高い類似度分析精度の両立を実現しました。
